主页 > 快资讯 > 正文

通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”

2022-09-01 18:52来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

大数据文摘转载自微软研究院AI头条

近年来,基础模型(foundation models,也被称为预训练模型)的研究从技术层面逐渐趋向于大一统(the big convergence),不同人工智能领域(例如自然语言处理、计算机视觉、语音处理、多模态等)的基础模型从技术上都依赖三个方面:一是 Transformers 成为不同领域和问题的通用神经网络架构和建模方式,二是生成式预训练(generative pre-training)成为最重要的自监督学习方法和训练目标,三是数据和模型参数的规模化(scaling up)进一步释放基础模型的潜力。

技术和模型的统一将会使得 AI 模型逐步标准化、规模化,从而为大范围产业化提供基础和可能。通过云部署和云端协作,AI 将有可能真正成为像水和电一样的“新基建”赋能各行各业,并进一步催生颠覆性的应用场景和商业模式。

近期,微软亚洲研究院联合微软图灵团队推出了最新升级的 BEiT-3 预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测(COCO)、实例分割(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图片描述生成(COCO)和跨模态检索(Flickr30K,COCO)等,实现了 SOTA 的迁移性能。BEiT-3 创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI 大一统渐露曙光。(点击阅读原文,查看 BEiT-3 论文) 图1:截至2022年8月,BEiT-3 在广泛的视觉及视觉-语言任务上都实现了 SOTA 的迁移性能 事实上,在早期对于 AI 和深度学习算法的探索中,科研人员都是专注于研究单模态模型,并利用单一模态数据来训练模型。例如,基于文本数据训练自然语言处理(NLP)模型,基于图像数据训练计算机视觉 (CV) 模型,使用音频数据训练语音模型等等。然而,在现实世界中,文本、图像、语音、视频等形式很多情况下都不是独立存在的,而是以更复杂的方式融合呈现,因此在人工智能的探索中,跨模态、多模态也成了近几年业界研究的重点。

大规模预训练正在趋向“大一统”

“近年来,语言、视觉和多模态等领域的预训练开始呈现大一统(big convergence)趋势。通过对大量数据的大规模预训练,我们可以更轻松地将模型迁移到多种下游任务上。这种预训练一个通用基础模型来处理多种下游任务的模式已经吸引了越来越多科研人员的关注,”微软亚洲研究院自然语言计算组主管研究员董力表示。微软亚洲研究院看到,大一统的趋势已经在三个方面逐渐显现,分别是骨干网络(backbone)、预训练任务和规模提升。 首先,骨干网络逐渐统一。模型架构的统一,为预训练的大一统提供了基础。在这个思想指引下,微软亚洲研究院提出了一个统一的骨干网络 Multiway Transformer,可以同时编码多种模态。此外,通过模块化的设计,统一架构可以用于不同的视觉及视觉-语言下游任务。受到 UniLM(统一预训练语言模型)的启发,理解和生成任务也可以进行统一建模。 其次,基于掩码数据建模(masked data modeling)的预训练已成功应用于多种模态,如文本和图像。微软亚洲研究院的研究员们将图像看作一种语言,实现了以相同的方式处理文本和图像两种模态任务的目的。自此,图像-文本对可以被用作“平行句子”来学习模态之间的对齐。通过数据的归一化处理,还可以利用生成式预训练来统一地进行大规模表示学习。BEiT-3 在视觉、视觉-语言任务上达到 SOTA 性能也证明了生成式预训练的优越性。 第三,扩大模型规模和数据大小可提高基础模型的泛化能力,从而提升模型的下游迁移能力。遵循这一理念,科研人员逐渐将模型规模扩大到了数十亿个参数,例如在 NLP 领域,Megatron-Turing NLG 模型有5300亿参数,这些大模型在语言理解、语言生成等任务上都取得了更好的成效;在 CV 领域, SwinTransformer v2.0 具有30亿参数,并在多个基准上刷新了纪录,证明了视觉大模型在广泛视觉任务中的优势。再加之,微软亚洲研究院提出了将图像视为一种语言的方式,可直接复用已有的大规模语言模型的预训练方法,从而更有利于视觉基础模型的扩大。

99科技网:http://www.99it.com.cn

相关推荐
商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》 商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》

“元萝卜”AI下棋机器人也已在世博中心和西岸艺术中心布好棋局,静候与观众

快资讯2022-09-02

波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步 波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步

9月1日,波场Poloniex官方推特宣布,正式启用新顶级域名P.xyz,助力平台为全球更

快资讯2022-09-01

多视点眼科:开学前是否需要带孩子去检查视力 多视点眼科:开学前是否需要带孩子去检查视力

随着八月的结束,九月的到来,学生们陆陆续续地回归校园,然后开始他们自己

快资讯2022-09-01

三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新 三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新

​在美业圈子里,鼻子号称是五官之王。这可以说是非常高的评价,也说明了鼻

快资讯2022-09-01

多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害 多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害

《原则》将《人工智能伦理建议书》扩展到生物多样性保护。

快资讯2022-09-01

「审计」离人工智能还有多远? 「审计」离人工智能还有多远?

对于线上开展审计工作,如何保证在数据上的所有操作都是可靠和可跟踪的问题

快资讯2022-09-01

让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark 让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark

数字经济时代,数据已经成为重要的生产器,而计算将数据资源转化为生产的推

快资讯2022-08-31

2022已更新黛维依产品效果怎么样,市场价多少钱一盒? 2022已更新黛维依产品效果怎么样,市场价多少钱一盒?

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱 2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依系列产品有多少,详细品牌加盟简介 2022已更新黛维依系列产品有多少,详细品牌加盟简介

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31