主页 > 快资讯 > 正文

斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键(2)

2022-09-15 12:48来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

但合成数据也存在一些问题。合成数据与现实数据之间总是存在差距,所以在将基于合成数据训练的 AI 模型转移到现实世界时,通常会出现性能下降。如果模拟器的设计不考虑少数群体,那么合成数据也会加剧数据差异,而 AI 模型的性能高度依赖其训练和评估数据的上下文,因此在标准化和透明的报告中记录数据设计地上下文就非常重要。

现在,研究人员已经创建了各种「数据营养标签」(data nutrition labels)来捕获有关数据设计和注释过程的元数据(metadata)。有用的元数据包括数据集中参与者的性别、性别、种族和地理位置的统计数据,这有助于发现是否有代表性不足的亚群未被覆盖。数据来源也是一种元数据,它跟踪数据的来源和时间以及产生数据的过程和方法。

元数据可以保存在一个专门的数据设计文档里,数据文档对于观察数据的生命周期和社会技术背景来说非常重要。文档可以上传到稳定且集中的数据存储库(例如 Zenodo)中。

完善数据:筛选、清洗、标注、增强

初始数据集收集完成后,我们就需要进一步完善数据,为 AI 的开发提供更有效的数据。这是 AI 以模型为中心的方法与以数据为中心的方法的关键不同之处,如图 2a ,以模型为中心的研究通常是基于给定的数据,专注于改进模型架构或优化此数据。而以数据为中心的研究则侧重于可扩展的方法,通过数据清洗、筛选、标注、增强等过程来系统地改进数据,并且可以使用一站式的模型开发平台。

图2a:AI 以模型为中心与以数据为中心的方法比较。MNIST、COCO 和 ImageNet 是 AI 研究中常用的数据集。

数据筛选

如果数据集的噪声很大,我们就得仔细对数据进行筛选之后再做训练,这样可以显著提高模型的可靠性和泛化性。图 2a 中的飞机图像就是鸟类数据集中应删除的噪声数据点。

在 图 2b 中,由于训练数据的偏差,在以前使用的大型皮肤病学数据上训练的四种最先进的模型都表现不佳,在深色皮肤图像上的诊断效果尤其不好,而在较小的高质量数据上训练的模型 1 在深浅肤色上都相对更可靠一些。

图 2b:浅色皮肤和深色皮肤图像上的皮肤病诊断测试性能。

图 2c 显示,ResNet、DenseNet 和 VGG 这三种用于图像分类的流行深度学习架构,如果是在噪声大的图像数据集上进行训练,其性能都欠佳。而经过数据Shapley 值过滤后,质量较差的数据被删除,此时在更干净的数据子集上训练的ResNet模型性能显著更优。

99科技网:http://www.99it.com.cn

相关推荐
斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-15

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-09

自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真 自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真

自动驾驶政策法规的出台只是时间问题,届时包括百度在内的所有玩家都将迎来

快资讯2022-09-06

重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-02

Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生? Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生?

AI几乎是贯穿英伟达历届GTC的不衰主题,而与AI密不可分的机器人、数字人则是

快资讯2022-09-01

斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-01

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-01

AI大牛李沐装机视频来了!你也能练100亿的大模型 AI大牛李沐装机视频来了!你也能练100亿的大模型

AI大牛沐神来装机了,还是训练100亿参数模型那种。

快资讯2022-08-30

市场监管总局李常青:建立新能源汽车报告事故制度 市场监管总局李常青:建立新能源汽车报告事故制度

8月1日,第九届智能网联汽车技术年会在北京开幕,国家市场监管总局质量发展

快资讯2022-08-01

李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样 李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样

IT之家7 月 28 日消息,近两年随着万物互联的兴起,不少车企和手机厂商都在互

快资讯2022-07-28