主页 > 快资讯 > 正文

通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”(2)

2022-09-01 18:52来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

BEiT:微软亚洲研究院为视觉基础大模型开创新方向

在 CV 领域的模型学习中,通常使用的是有监督预训练,利用有标注的数据。但随着视觉模型的不断扩大,标注数据难以满足模型需求,当模型达到一定规模时,即使模型再扩大,也无法得到更好的结果,这就是所谓的数据饥饿(data hungry) 。因此,科研人员开始使用无标注数据进行自监督学习,以此预训练大模型参数。以往在 CV 领域,无标注数据的自监督学习常采用对比学习。但对比学习存在一个问题,就是对图像干扰操作过于依赖。当噪声太简单时,模型学习不到有用的知识;而对图像改变过大,甚至面目全非时,模型无法进行有效学习。所以对比学习很难把握这之间的平衡,且需要大批量训练,对显存和工程实现要求很高。

对此,微软亚洲研究院自然语言计算组的研究员们提出了掩码图像建模 (Masked Image Modeling, MIM)预训练任务,推出了 BEiT 模型。与文本不同,图像是连续信号,那要如何实现掩码训练呢?

为了解决这一问题,研究员们将图片转化成了两种表示视图。一是,通过编码学习 Tokenizer,将图像变成离散的视觉符号(visual token),类似文本;二是,将图像切成多个小“像素块”(patch),每个像素块相当于一个字符。这样,在用 BEiT 预训练时,模型可以随机遮盖图像的部分像素块,并将其替换为特殊的掩码符号[M],然后在骨干网络 ViT 中不断学习、预测实际图片的样子。在 BEiT 预训练后,通过在预训练编码上添加任务层,就可以直接微调下游任务的模型参数。在图像分类和语义分割方面的实验结果表明,与以前的预训练方法相比,BEiT模型获得了更出色的结果。同时,BEiT 对超大模型(如1B或10B)也更有帮助,特别是当标记数据不足以对大模型进行有监督预训练时。

图2:BEiT预训练示意图 BEiT相关论文被 ICLR 2022 大会接收为 Oral Presentation(口头报告论文,54 out of 3391)。ICLR 大会评审委员会认为,BEiT 为视觉大模型预训练的研究开创了一个全新的方向,首次将掩码预训练应用在了 CV 领域非常具有创新性。 (了解更多详情,请查看BEiT论文原文:https://openreview.net/forum?id=p-BhZSz59o4) 图3:BEiT论文在ICLR 2022的评审意见

BEiT-3为 AI 多模态基础大模型研究打开新思路

在 BEiT 的基础上,微软亚洲研究院的研究员们在 BEiT-2 中进一步丰富了自监督学习的语义信息(了解更多信息,请查看 BEiT-2 论文原文:https://arxiv.org/abs/2208.06366)。近日,研究员们又将其升级到了 BEiT-3。BEiT-3 利用一个共享的 Multiway Transformer 结构,通过在单模态和多模态数据上进行掩码数据建模完成预训练,并可迁移到各种视觉、视觉-语言的下游任务中。

99科技网:http://www.99it.com.cn

相关推荐
商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》 商汤多项成果亮相世界人工智能大会,与画家共绘巨幅AR作品《智会世图》

“元萝卜”AI下棋机器人也已在世博中心和西岸艺术中心布好棋局,静候与观众

快资讯2022-09-02

波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步 波场Poloniex正式启用全球通用顶级域名P.xyz 向国际顶级交易所迈出重要一步

9月1日,波场Poloniex官方推特宣布,正式启用新顶级域名P.xyz,助力平台为全球更

快资讯2022-09-01

多视点眼科:开学前是否需要带孩子去检查视力 多视点眼科:开学前是否需要带孩子去检查视力

随着八月的结束,九月的到来,学生们陆陆续续地回归校园,然后开始他们自己

快资讯2022-09-01

三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新 三分钟美鼻术做一次多少钱,代理以后价格便宜多少2022已更新

​在美业圈子里,鼻子号称是五官之王。这可以说是非常高的评价,也说明了鼻

快资讯2022-09-01

多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害 多家机构发起倡议:人工智能的发展应避免对生物带来不必要的伤害

《原则》将《人工智能伦理建议书》扩展到生物多样性保护。

快资讯2022-09-01

「审计」离人工智能还有多远? 「审计」离人工智能还有多远?

对于线上开展审计工作,如何保证在数据上的所有操作都是可靠和可跟踪的问题

快资讯2022-09-01

让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark 让算力选择不再困难,天数智芯发布国内首个通用计算应用开发及评测平台DeepSpark

数字经济时代,数据已经成为重要的生产器,而计算将数据资源转化为生产的推

快资讯2022-08-31

2022已更新黛维依产品效果怎么样,市场价多少钱一盒? 2022已更新黛维依产品效果怎么样,市场价多少钱一盒?

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱 2022已更新黛维依怎么代理加盟的?代理加盟需要投资多少钱

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31

2022已更新黛维依系列产品有多少,详细品牌加盟简介 2022已更新黛维依系列产品有多少,详细品牌加盟简介

对于许多人来说,变美是毕生的事业。有的人追求美白,有的人追求提拉紧致,

快资讯2022-08-31