通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
BEiT:微软亚洲研究院为视觉基础大模型开创新方向
在 CV 领域的模型学习中,通常使用的是有监督预训练,利用有标注的数据。但随着视觉模型的不断扩大,标注数据难以满足模型需求,当模型达到一定规模时,即使模型再扩大,也无法得到更好的结果,这就是所谓的数据饥饿(data hungry) 。因此,科研人员开始使用无标注数据进行自监督学习,以此预训练大模型参数。以往在 CV 领域,无标注数据的自监督学习常采用对比学习。但对比学习存在一个问题,就是对图像干扰操作过于依赖。当噪声太简单时,模型学习不到有用的知识;而对图像改变过大,甚至面目全非时,模型无法进行有效学习。所以对比学习很难把握这之间的平衡,且需要大批量训练,对显存和工程实现要求很高。
对此,微软亚洲研究院自然语言计算组的研究员们提出了掩码图像建模 (Masked Image Modeling, MIM)预训练任务,推出了 BEiT 模型。与文本不同,图像是连续信号,那要如何实现掩码训练呢?为了解决这一问题,研究员们将图片转化成了两种表示视图。一是,通过编码学习 Tokenizer,将图像变成离散的视觉符号(visual token),类似文本;二是,将图像切成多个小“像素块”(patch),每个像素块相当于一个字符。这样,在用 BEiT 预训练时,模型可以随机遮盖图像的部分像素块,并将其替换为特殊的掩码符号[M],然后在骨干网络 ViT 中不断学习、预测实际图片的样子。在 BEiT 预训练后,通过在预训练编码上添加任务层,就可以直接微调下游任务的模型参数。在图像分类和语义分割方面的实验结果表明,与以前的预训练方法相比,BEiT模型获得了更出色的结果。同时,BEiT 对超大模型(如1B或10B)也更有帮助,特别是当标记数据不足以对大模型进行有监督预训练时。
图2:BEiT预训练示意图 BEiT相关论文被 ICLR 2022 大会接收为 Oral Presentation(口头报告论文,54 out of 3391)。ICLR 大会评审委员会认为,BEiT 为视觉大模型预训练的研究开创了一个全新的方向,首次将掩码预训练应用在了 CV 领域非常具有创新性。 (了解更多详情,请查看BEiT论文原文:https://openreview.net/forum?id=p-BhZSz59o4) 图3:BEiT论文在ICLR 2022的评审意见
BEiT-3为 AI 多模态基础大模型研究打开新思路
在 BEiT 的基础上,微软亚洲研究院的研究员们在 BEiT-2 中进一步丰富了自监督学习的语义信息(了解更多信息,请查看 BEiT-2 论文原文:https://arxiv.org/abs/2208.06366)。近日,研究员们又将其升级到了 BEiT-3。BEiT-3 利用一个共享的 Multiway Transformer 结构,通过在单模态和多模态数据上进行掩码数据建模完成预训练,并可迁移到各种视觉、视觉-语言的下游任务中。
99科技网:http://www.99it.com.cn

9月1日,波场Poloniex官方推特宣布,正式启用新顶级域名P.xyz,助力平台为全球更
快资讯2022-09-01