主页 > 快资讯 > 正文

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键(4)

2022-09-15 12:42来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在模型经过训练后,AI 评估的目标是模型的 通用性 和 可信性 。 为了实现这一目标,我们应该仔细设计评估数据,从而去找到模型的现实世界设置(real-world settings),同时评估数据也需要与模型的训练数据有足够大的差异。 举个例子,在医学研究中,AI 模型通常是基于少数医院的数据训练的。这样的模型在新的医院部署时,由于数据收集和处理方面的差异,其准确性就会降低。为了评价模型的泛化性,就需要从不同的医院、不同的数据处理管道收集评价数据。在其他应用程序中,评估数据应该从不同的来源收集,最好由不同的注释器标记为训练数据。同时,高质量的人类标签仍然是最重要的评价。 AI 评估的一个重要作用是, 判断 AI 模型是否在不能很好形成概念的训练数据中将虚假相关性作为「捷径」 。例如,在医学成像中,数据的处理方式(例如裁剪或图像压缩)可能产生模型拾取的虚假相关性(即捷径)。这些捷径表面上可能很有帮助,但当模型部署在稍有不同的环境中时,就可能会出现灾难性的失败。 系统的数据消融是检查潜在的模型「捷径」的好方法。 在数据消融(data ablation)中,AI 模型在虚假相关表面信号的消融输入上进行训练和测试。 图 4:数 据消融 使用数据消融探测出模型捷径的一个例子是,一项关于常见自然语言推理数据集的研究发现,仅对文本输入的前一半进行训练的人工智能模型在推断文本的前一半和后一半之间的逻辑关系方面取得了很高的准确性,而人类在相同的输入上的推断水平和随机猜测差不多。这就表明人工智能模型利用虚假相关性作为完成这项任务的捷径。研究团队发现,特定的语言现象会被人工智能模型利用,如文本中的否定与标签高度相关。 数据消融被广泛适用于各个领域。例如,在医学领域,可以屏蔽图像中与生物相关的部分,用这种方式来评估人工智能是从虚假背景中学习,还是从图像质量的人工制品中学习。 AI 评估通常局限于比较整个测试数据集的总体性能指标。但即使 AI 模型在总体数据层面工作良好,它仍然可能在特定的数据子组上显示出系统性错误,而 对这些错误集群的特征描述可以让我们更加了解模型的局限性。 当元数据可用时,细粒度的评估方法应该尽可能地按数据集中参与者的性别、性别、种族和地理位置对评估数据进行切片——例如,“亚洲老年男性”或“美国土著女性”——并量化模型在每个数据子组上的表现。多精度审计(Multi-accuracy auditing)是一种自动搜索 AI 模型表现不佳的数据子组的算法。在此处,审计算法被训练来使用元数据预测和聚类原始模型的错误,然后提供 AI 模型犯了什么错,为什么会犯错等问题的可解释答案。 当元数据不可用时,Domino 等方法会自动识别评估模型容易出错的数据集群,并使用文本生成来创建这些模型错误的自然语言解释。

99科技网:http://www.99it.com.cn

相关推荐
斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-09

自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真 自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真

自动驾驶政策法规的出台只是时间问题,届时包括百度在内的所有玩家都将迎来

快资讯2022-09-06

重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-02

Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生? Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生?

AI几乎是贯穿英伟达历届GTC的不衰主题,而与AI密不可分的机器人、数字人则是

快资讯2022-09-01

斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-01

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-01

AI大牛李沐装机视频来了!你也能练100亿的大模型 AI大牛李沐装机视频来了!你也能练100亿的大模型

AI大牛沐神来装机了,还是训练100亿参数模型那种。

快资讯2022-08-30

市场监管总局李常青:建立新能源汽车报告事故制度 市场监管总局李常青:建立新能源汽车报告事故制度

8月1日,第九届智能网联汽车技术年会在北京开幕,国家市场监管总局质量发展

快资讯2022-08-01

李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样 李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样

IT之家7 月 28 日消息,近两年随着万物互联的兴起,不少车企和手机厂商都在互

快资讯2022-07-28

李斌回应“蔚来与合肥对赌”:已付回 75 亿元,不存在对赌失败问题 李斌回应“蔚来与合肥对赌”:已付回 75 亿元,不存在对赌失败问题

7 月 13 日消息,针对近期网络流传的“蔚来与合肥对赌”一事,蔚来汽车 CEO 李

快资讯2022-07-13