您现在的位置是:首页 > 人工智能人工智能

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺

查看 cc博主 的更多文章cc博主2022-05-23【人工智能】325人已围观

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第1张

作者丨Deborah Raji

解读 | Antonio

编辑丨陈彩娴

数据分布偏移(data distribution shift)是可信人工智能系统热衷于考虑的一个话题,每年关于它的相关研究数不胜数。然而,仅关注分布偏移就足够了吗?

近期,纽约大学AI Now研究所的技术研究员Deborah Raji在UC伯克利助理教授Benjamin Recht的个人博客argmin上发表了对这一话题的看法。

她对于学界过度关注分布偏移感到担忧,认为更应该考虑统计上一个相关概念,即外部有效性(external vadality)。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第2张



1
数据分布偏移

数据偏移一直在可信人工智能上的一项“杀手锏”。例如,由美国史诗系统公司研发、被密歇根大学医院广泛应用的败血症识别模型在2020年4月由于频繁出现虚假报警,而被紧急叫停。据分析,这是因为新冠大流行导致的人口地理学特征发生了变化才使得模型出现偏差。

这是数据分布偏移的一个例子:当测试集的数据与训练集的数据分布发生变化时候,模型无法有效迁移到新的应用场景下导致出错。

这和不断变化的本质相关:真实世界的数据往往是动态的、变化的、不确定的,例如软件部署变化,人口迁移,行为变化,语言演变等,如果模型不将这些予以考虑,就会出现系统性偏差。

Benjamin Recht发表过这样一个另一惊讶的研究,他们重新按照ImageNet的数据收集方式收集了一批新的测试集,用原有的模型对新测试集进行准确性测试,发现了如下的结果:

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第3张

其中,横轴代表在原始数据测试集的测试性能,纵轴代表新数据集上的测试性能,蓝色的每个点代表一个模型的结果,红色的线则是对它们的线性拟合,黑色的虚线y=x代表理论上测试结果应该具有的表现。

可以看出,尽管二者之间仍然存在线性相关,即在原数据集上表现好的,在新的数据集也表现得很好,反之亦然;然而,它们之间仍相差将近15%的差距,这就是由于数据分布偏差所导致的。这里的偏差可能来自不同的标注者偏好,不同的数据收集过程等等。



2
研究现状

Deborah Raji承认研究这种现象的重要性,但她认为ML的研究者们太过于执着于关注分布偏移这一话题了,以至于很多情况下将模型的任何失误都归因于了分布偏移,而她认为这是不合适的。

首先,她认为“分布偏移”这一问题有时候太过具体,有时候又不够具体。任何数据上的变化都可以认为是一种“分布偏移”,例如数据特征本身的变化、数据标签的变化以及二者都发生的变化。

另一方面,这一术语又太宽泛模糊了。“数据分布”这个概念自身就需要假设数据来自一个假象的“真实”分布中,而现实可以观察到的数据则是从这一整体分布中独立同分布的采样数据。然而这个分布是什么呢?没人知道——真实数据混乱、无序、不可预知。

数据分布偏移了,可是哪些部分发生了变化,为什么它们发生,这些都无从得知。

Deborah Raji进而警告道,对于这一术语的痴迷会如何限制ML社区的发展。一个表现是,现在的社区热衷于开发检测数据分布偏移的基准测试,以此来声称测试偏移的程度。然而这些数据是静态的、理想的,无法适应真实世界更加复杂的数据。

有些研究已经开始得出结论:过度强调数据分布偏移已经使得ML实践者和政策制定者更专注于回顾性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者针对于静态收集的历史性数据而言,后者则更加着重于系统的上下文背景。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第4张

回顾性研究与前瞻性研究

为此,Deborah Raji希望研究可以更加转向“有效性”(validity)这一概念。有效性是统计中测度论(measurement theory)中的重要概念,用以衡量系统的可信赖性。有效性又包含内部有效性(internal validity)和构建有效性(construct validity)。当讨论泛化性的时候,我们更关注于外部有效性(external validity)。



3
外部有效性

外部有效性衡量模型如何泛化到其它场景、设定。这些测试的设定往往不是实验原有的环境,并且考虑到不仅仅是数据方面的变化。

Deborah Raji以一篇文章为例,这篇发表在JAMA的,名为“在住院患者中广泛使用的败血症预测模型的外部有效性分析”对于开头中的那个例子中的模型做了更加详尽的“外部有效性”分析。

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第5张外部有效性分析模型的论文

网址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先这篇文章描述了一项关于 2018 年 12 月至 2019 年 10 月期间(尤其是在大流行开始之前)使用败血症模型的回顾性研究。他们检查了接受38,455 次住院治疗的27,697名患者,发现Epic模型预测败血症发病的曲线下面积为 0.63,而“这比其开发人员报告的性能要差得多”。

此外,该工具“未识别出 1,709 名败血症患者(67%),因此造成了很大的虚假报警。”

这些研究人员正确地将这些问题描述为“外部有效性”问题,并详细研究了它们,这远远超出了“临床医生和数据集偏移”——一个静态的偏移数据集中描述的数据分布偏移。

对于Epic 系统的评估是基于 2013 年至 2015 年 3 个美国卫生系统的数据,这与密歇根大学 2018-2019 年的患者记录数据不同。但该评估不仅仅考虑数据问题,还评估了医生与模型交互的变化以及这些变化如何影响结果,以及其他与数据几乎没有关系的外部有效性因素——这远超过了数据分布偏移。

即使在讨论实质性的数据更改时,研究者们也会试图具体描述它是什么,并具体分析在他们医院部署时发生的差异。



4
关于作者

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第6张

作者Deborah Raji是尼日利亚裔加拿大计算机科学家和活动家,她致力于研究算法偏见、人工智能问责制和算法审计。她曾与 Google 的Ethical AI 团队合作,并曾在纽约大学AI和AI Now研究所的合作伙伴关系中担任研究员,致力于研究如何在机器学习工程实践中考虑道德因素,曾于AI公正性研究的Timnit Gebru做过同事,也曾获得过该领域多个奖项。

Deborah Raji与Ben Recht已经在这个外部有效性这一话题上已经展开了很多深入的讨论,后续关于这一问题的探讨也会陆续放在arg min的博客上,感兴趣的读者可以关注查看~

参考博客:

https://www.argmin.net/2022/03/31/external-evaluations/http://www.argmin.net/2022/03/15/external-validity/

单考虑分布偏移远不够!真实数据很复杂,「外部有效性」不可或缺 第7张

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

Tags:v2ray linux客户端

文章评论

猜你喜欢

  • 弥补二合一品类主流市场空白,华为MateBook E Go推动二合一品类发展进入普及拐点

    业界弥补二合一品类主流市场空白,华为MateBook E Go推动二合一品类发展进入普及拐点

    移动办公时代,适应多元办公场景的二合一笔记本受到消费者欢迎。虽然头部PC品牌都推出了二合一笔记本产品,但由于价格较高、形态切换体验差、无法提供高效生产力等原因,二合一笔记本一直属于小众的“尝鲜品”。数据显示,当前二合一笔记本的市场份额仅为4%左右。基于对办公...

    查看 cc博客 的更多文章2022-09-07307人已围观

    阅读更多
  • 百度灵医智惠与罗氏制药达成战略合作:AI赋能药企数智化发展

    业界百度灵医智惠与罗氏制药达成战略合作:AI赋能药企数智化发展

    在政策推动、市场演变、疫情常态化等因素的作用下,医疗产业迈入数智化时代。新药研发、智能筛查、辅助决策、真实世界研究等医疗场景不断与人工智能技术深度融合,数智化研发、数智化临床试验、数智化营销成为药企数智化发展的关注焦点。8月11日,罗氏泛肿瘤精准诊疗创新生...

    查看 cc博客 的更多文章2022-08-11330人已围观

    阅读更多
  • 美团自动配送车抵沪抗疫,助力社区实现最后100米无接触配送

    业界美团自动配送车抵沪抗疫,助力社区实现最后100米无接触配送

    近日,数万名医护人员从全国各地驰援上海,来自科技公司的新力量也加入其中。4月5日,有上海市民发现,小区附近的美团买菜站点门口一夜之间多了一批黄色无人车,一排排的黄色小车为街道上增添一抹暖色。记者随后了解到,这批看起来比家用小轿车尺寸略小一些的“小黄车”,是美团...

    查看 cc博客 的更多文章2022-04-06384人已围观

    阅读更多
  • 香港云服务器 1核 2G 5M 20元/月弘速云

    服务器评测香港云服务器 1核 2G 5M 20元/月弘速云

    弘速云于2021年创立品牌,主要提供香港高速回国线路,主要线路有香港CN2、香港CN2 GIA 香港CTGNET线路。一周年特惠活动,活动机器有限售完即止官网:https://www.hosuyun.com/公司企业名:弘速科技有限公司活动一:香港沙...

    查看 cc博客 的更多文章2022-03-19381人已围观

    阅读更多
  • 算力是如何影响国家GDP的?

    业界算力是如何影响国家GDP的?

    本周四,IDC、浪潮信息和清华大学全球产业研究院联合推出了《2021-2022全球计算力指数报告》,报告指出,算力对经济增长的拉动具有长期性和倍增效应:计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰ 。当一个国家的计算力指数达到40分、...

    查看 cc博客 的更多文章2022-03-18357人已围观

    阅读更多

   有免费节点资源,我们会通知你!  加入纸飞机订阅群  

×
天气预报查看日历分享网页电报扫码留言评论电报频道链接