返回顶部
返回首页
返回首页
今天是    | 手机版 | 产品 | 店铺 | 新闻 | 行业 | 原料讯 | 技术 |
home 您现在的位置: 首页 >市场评论 > 详细信息
将可解释性构建到机器学习模型的组件中
2022年07月01日    阅读量:59     新闻来源:中国橡胶网 zimite.com    |  投稿

帮助用户理解和信任机器学习模型的解释方法通常描述模型中使用的某些特征对其预测的贡献程度。例如,如果模型预测患者患心脏病的风险,医生可能想知道患者的心率数据对该预测的影响有多大。

但是,如果这些特征非常复杂或复杂,以至于用户无法理解,那么解释方法有什么好处吗?

麻省理工学院的研究人员正在努力提高特征的可解释性,以便决策者能够更自如地使用机器学习模型的输出。在多年的实地工作基础上,他们开发了一种分类法,以帮助开发人员设计出更易于目标受众理解的功能。

“我们发现,在现实世界中,尽管我们使用了最先进的方法来解释机器学习模型,但仍有许多困惑源于特征,而不是模型本身,”电气工程和计算机科学博士生、介绍分类法的论文的主要作者亚历山德拉·兹特克说。

为了建立分类法,研究人员定义了一些属性,这些属性可以让五种类型的用户(从人工智能专家到受机器学习模型预测影响的人)对特征进行解释。它们还提供了模型创建者如何将特征转换为外行更容易理解的格式的说明。

他们希望他们的工作将激励模型构建者从开发过程的一开始就考虑使用可解释的特性,而不是试图向后工作,并关注事后的可解释性。

麻省理工学院的合著者包括博士后刘冬雨;访问教授Laure Berti-脡税务局研究总监奎尔;以及资深作者Kalyan Veeramachaneni,信息与决策系统实验室(LIDS)首席研究科学家,AI数据小组负责人。Corelight首席数据科学家伊格纳西奥·阿纳尔多(IgnacioArnaldo)也加入了这一行列。这项研究发表在6月版的计算机械协会知识发现和数据挖掘特别兴趣小组的同行评议探索通讯上。

现实世界的教训

特征是反馈给机器学习模型的输入变量;它们通常从数据集中的列中提取。Veeramachaneni解释说,数据科学家通常会为模型选择和手工制作特征,他们主要关注的是确保特征的开发是为了提高模型的准确性,而不是决策者是否能够理解这些特征。

几年来,他和他的团队一直与决策者合作,以确定机器学习的可用性挑战。这些领域专家大多缺乏机器学习知识,他们通常不信任模型,因为他们不了解影响预测的特征。

在一个项目中,他们与一家医院ICU的临床医生合作,他们利用机器学习预测患者在心脏手术后面临并发症的风险。一些特征表现为聚合值,如患者心率随时间的趋势。虽然以这种方式编码的特征是“模型就绪”(模型可以处理数据),但临床医生不理解它们是如何计算的。刘说,他们更愿意看到这些聚集的特征与原始值之间的关系,这样他们就可以识别患者心率的异常。

相比之下,一群学习型科学家更喜欢聚合的特征。与其拥有“学生在论坛上发表的帖子数量”这样的功能,不如将相关功能组合在一起,并贴上他们理解的术语,如“参与”

Veeramachaneni说:“就可解释性而言,一种规模并不适合所有人。当你从一个地区走到另一个地区时,会有不同的需求。可解释性本身有很多层次。”。

一种尺寸不能适合所有人的想法是研究人员分类的关键。它们定义了一些属性,这些属性可以让不同的决策者或多或少地理解特征,并概述了哪些属性可能对特定用户最重要。

例如,机器学习开发人员可能专注于拥有与模型兼容和预测的功能,这意味着他们有望提高模型的性能。

另一方面,没有机器学习经验的决策者可能会更好地使用人性化的特性,这意味着它们的描述方式对用户来说是自然的,也是可以理解的,这意味着它们引用了用户可以推理的真实世界的指标。

Zytek说:“分类法说,如果你正在制作可解释的功能,它们可以解释到什么级别?你可能不需要所有级别,这取决于与你合作的领域专家的类型。”。

将可解释性放在首位

研究人员还概述了开发人员可以采用的特征工程技术,以使特征更易于为特定受众所理解。

特征工程是一个过程,在这个过程中,数据科学家使用聚合数据或规范化值等技术,将数据转换为机器学习模型可以处理的格式。大多数模型也不能处理分类数据,除非它们转换为数字代码。这些转换对于普通人来说几乎是不可能的。

Zytek说,创建可解释的功能可能需要撤销一些编码。例如,一种通用特征工程技术组织数据的跨度,以便它们都包含相同的年数。为了使这些特征更易于理解,可以使用人类术语对年龄范围进行分组,如婴儿、幼儿、儿童和青少年。或者,与其使用平均脉搏率等变换后的特征,一个可解释的特征可能只是实际脉搏率数据,刘补充道。

Zytek说:“在许多领域,可解释特征和模型准确性之间的权衡实际上非常小。例如,当我们与儿童福利筛选人员合作时,我们只使用符合我们的可解释性定义的特征重新训练模型,性能下降几乎可以忽略不计。”。

在这项工作的基础上,研究人员正在开发一个系统,使模型开发人员能够以更有效的方式处理复杂的特征转换,为机器学习模型创建以人为中心的解释。这个新系统还将把用于解释模型就绪数据集的算法转换为决策者可以理解的格式。

标签:市场评论行业资讯
免责声明: 本文仅代表作者本人观点,与中网橡胶无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:service@cnso360.com | 客服QQ:23341571

全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识