主页 > 快资讯 > 正文

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

2022-09-15 12:42来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

数据的设计、完善、评估三大步骤是关键。

作者 | 李梅、王玥 编辑 | 陈彩娴 在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变得尤为重要。 在以往的 AI 开发流程中,数据集通常是固定的,开发工作的重点是迭代模型架构或训练过程来提高基准性能。而现在,数据迭代成为重心,因此我们需要更系统的方法来评估、筛选、清洗和注释用于训练和测试 AI 模型的数据。 最近, 论文地址: htt ps://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIA Fc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D AI 数据流程中的主要步骤包括:数据设计(数据的采集和记录)、数据改善(数据筛选、清洗、标注、增强)以及用于评估和监控 AI 模型的数据策略,其中的每一个环节都会影响最终 AI 模型的可信度。 图1:从数据设计到评估的以数据为中心的方法开发路线图。

1

AI 的数据设计

确定了一个人工智能应用程序后,开发 AI 模型第一步就是设计数据(即识别和记录数据来源)。 设计应当是一个迭代过程——用试验数据来开发初始的 AI 模型,然后再收集额外数据来修补模型的局限性。设计的关键标准是确保数据适用于任务,并覆盖足够的范围来代表模型可能遇到的不同用户和场景。 而目前用于开发 AI 的数据集通常覆盖范围有限或者具有偏差。例如在医疗 AI 中,用于开发算法的患者数据的收集在地区分布上不成比例,这会限制 AI 模型对不同人群的适用性。 提高数据覆盖率的一种方法,是让更广泛的社区参与数据的创建。目前最大的公共数据集 Common Voice 项目就是一个例证,该数据集包含了来自 166000 多名参与者的 76 种语言的 11192 小时语音转录。 而当代表性数据难以获得时,可以用 合成数据 来填补覆盖空白。比如真实人脸的收集通常涉及隐私问题和抽样偏差,而由深度生成模型创建的合成人脸现在已经被用于减轻数据不平衡和偏差。在医疗保健领域,可以共享合成医疗记录来促进知识发现,而无需披露实际的患者信息。在机器人技术中,真实世界的挑战是终极的测试平台,也可以用高保真模拟环境来让智能体在复杂和长期任务中实现更快、更安全的学习。 但合成数据也存在一些问题。合成数据与现实数据之间总是存在差距,所以在将基于合成数据训练的 AI 模型转移到现实世界时,通常会出现性能下降。如果模拟器的设计不考虑少数群体,那么合成数据也会加剧数据差异,而 AI 模型的性能高度依赖其训练和评估数据的上下文,因此在标准化和透明的报告中记录数据设计地上下文就非常重要。 现在,研究人员已经创建了各种 「数据营养标签」(data nutrition labels)来捕获有关数据设计和注释过程的元数据(metadata)。 有用的元数据包括数据集中参与者的性别、性别、种族和地理位置的统计数据,这有助于发现是否有代表性不足的亚群未被覆盖。数据来源也是一种元数据,它跟踪数据的来源和时间以及产生数据的过程和方法。 元数据可以保存在一个专门的数据设计文档里,数据文档对于观察数据的生命周期和社会技术背景来说非常重要。文档可以上传到稳定且集中的数据存储库(例如 Zenodo)中。

99科技网:http://www.99it.com.cn

相关推荐
斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-09

自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真 自动驾驶赛道升温,李彦宏预言L4比L3更快商用或成真

自动驾驶政策法规的出台只是时间问题,届时包括百度在内的所有玩家都将迎来

快资讯2022-09-06

重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-02

Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生? Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生?

AI几乎是贯穿英伟达历届GTC的不衰主题,而与AI密不可分的机器人、数字人则是

快资讯2022-09-01

斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-01

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-01

AI大牛李沐装机视频来了!你也能练100亿的大模型 AI大牛李沐装机视频来了!你也能练100亿的大模型

AI大牛沐神来装机了,还是训练100亿参数模型那种。

快资讯2022-08-30

市场监管总局李常青:建立新能源汽车报告事故制度 市场监管总局李常青:建立新能源汽车报告事故制度

8月1日,第九届智能网联汽车技术年会在北京开幕,国家市场监管总局质量发展

快资讯2022-08-01

李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样 李斌被曝直播时称蔚来每年只开发一款手机,就像苹果一样

IT之家7 月 28 日消息,近两年随着万物互联的兴起,不少车企和手机厂商都在互

快资讯2022-07-28

李斌回应“蔚来与合肥对赌”:已付回 75 亿元,不存在对赌失败问题 李斌回应“蔚来与合肥对赌”:已付回 75 亿元,不存在对赌失败问题

7 月 13 日消息,针对近期网络流传的“蔚来与合肥对赌”一事,蔚来汽车 CEO 李

快资讯2022-07-13