主页 > 快资讯 > 正文

通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”(3)

2022-09-01 18:52来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

图4:BEiT-3 预训练示意图 BEiT-3 的创新之处包含三个方面: 骨干网络:Multiway Transformer。研究员们将 Multiway Transformer 作为骨干网络以对不同模态进行编码。每个 Multiway Transformer 由一个共享的自注意力模块(self-attention)和多个模态专家(modality experts)组成,每个模态专家都是一个前馈神经网络(feed-forward network)。共享自注意力模块可以有效学习不同模态信息的对齐,并对不同模态信息深度融合编码使其更好地应用在多模态理解任务上。根据当前输入的模态类别,Multiway Transformer 会选择不同模态专家对其进行编码以学习更多模态特定的信息。每层 Multiway Transformer 包含一个视觉专家和一个语言专家,而前三层 Multiway Transformer 拥有为融合编码器设计的视觉-语言专家。针对不同模态统一的骨干网络使得 BEiT-3 能够广泛地支持各种下游任务。如图4所示,BEiT-3 可以用作各种视觉任务的骨干网络,包括图像分类、目标检测、实例分割和语义分割,还可以微调为双编码器用于图像文本检索,以及用于多模态理解和生成任务的融合编码器。 图5:BEiT-3 可迁移到各种视觉、视觉-语言的下游任务 预训练任务:掩码数据建模 (masked data modeling)。研究员们在单模态(即图像与文本)和多模态数据(即图像-文本对)上通过统一的掩码-预测任务进行 BEiT-3 预训练。预训练期间,会随机掩盖一定百分比的文本字符或像素块,模型通过被训练恢复掩盖的文本字符或其视觉符号,来学习不同模态的表示及不同模态间的对齐。不同于之前的视觉-语言模型通常采用多个预训练任务,BEiT-3 仅使用一个统一的预训练任务,这对于更大模型的训练更加友好。由于使用生成式任务进行预训练,BEiT-3 相对于基于对比学习的模型也不需要大批量训练,从而缓解了 GPU 显存占用过大等问题。 扩大模型规模:BEiT-3 由40层 Multiway Transformer 组成,模型共包含19亿个参数。在预训练数据上,BEiT-3 基于多个单模态和多模态数据进行预训练,多模态数据从五个公开数据集中收集了大约1,500万图像和2,100万图像-文本对;单模态数据使用了1,400万图像和160GB文本语料。 “BEiT 系列研究有一个一以贯之的思想和原则,就是我们认为从通用技术层面看图像也可视为一种‘语言’(Imglish),从而可以以统一的方式对图像、文本和图像-文本对进行建模和学习。如果说 BEiT 引领和推进了生成式自监督预训练从 NLP 到 CV 的统一,那么,BEiT-3 实现了生成式多模态预训练的统一,”微软亚洲研究院自然语言计算组首席研究员韦福如说。 BEiT-3 使用 Multiway Transformer 有效建模不同的视觉、视觉-语言任务,并通过统一的 mask data modeling 作为预训练目标,这使得 BEiT-3 成为了通用基础模型的重要基石。“BEiT-3 既简单又有效,为多模态基础模型扩展打开了一个新方向。接下来,我们还将持续进行对 BEiT 的研究,以促进跨语言和跨模态的迁移,推动不同任务、语言和模态的大规模预训练甚至模型的大一统。”

99科技网:http://www.99it.com.cn

相关推荐
商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》 商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》

“元萝卜”AI下棋机器人也已在世博中心和西岸艺术中心布好棋局,静候与观众

快资讯2022-09-02

波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步 波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步

9月1日,波场Poloniex官方推特宣布,正式启用新顶级域名P.xyz,助力平台为全球更

快资讯2022-09-01

多视点眼科:开学前是否需要带孩子去检查视力 多视点眼科:开学前是否需要带孩子去检查视力

随着八月的结束,九月的到来,学生们陆陆续续地回归校园,然后开始他们自己

快资讯2022-09-01

三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新 三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新

​在美业圈子里,鼻子号称是五官之王。这可以说是非常高的评价,也说明了鼻

快资讯2022-09-01

多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害 多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害

《原则》将《人工智能伦理建议书》扩展到生物多样性保护。

快资讯2022-09-01

「审计」离人工智能还有多远? 「审计」离人工智能还有多远?

对于线上开展审计工作,如何保证在数据上的所有操作都是可靠和可跟踪的问题

快资讯2022-09-01

让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark 让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark

数字经济时代,数据已经成为重要的生产器,而计算将数据资源转化为生产的推

快资讯2022-08-31

2022已更新黛维依产品效果怎么样,市场价多少钱一盒? 2022已更新黛维依产品效果怎么样,市场价多少钱一盒?

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱 2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依系列产品有多少,详细品牌加盟简介 2022已更新黛维依系列产品有多少,详细品牌加盟简介

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31