通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”(2)

2022-09-01 18:52来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

BEiT:微软亚洲研究院为视觉基础大模型开创新方向

在 CV 领域的模型学习中，通常使用的是有监督预训练，利用有标注的数据。但随着视觉模型的不断扩大，标注数据难以满足模型需求，当模型达到一定规模时，即使模型再扩大，也无法得到更好的结果，这就是所谓的数据饥饿(data hungry) 。因此，科研人员开始使用无标注数据进行自监督学习，以此预训练大模型参数。以往在 CV 领域，无标注数据的自监督学习常采用对比学习。但对比学习存在一个问题，就是对图像干扰操作过于依赖。当噪声太简单时，模型学习不到有用的知识；而对图像改变过大，甚至面目全非时，模型无法进行有效学习。所以对比学习很难把握这之间的平衡，且需要大批量训练，对显存和工程实现要求很高。

对此，微软亚洲研究院自然语言计算组的研究员们提出了掩码图像建模 (Masked Image Modeling, MIM)预训练任务，推出了 BEiT 模型。与文本不同，图像是连续信号，那要如何实现掩码训练呢？

为了解决这一问题，研究员们将图片转化成了两种表示视图。一是，通过编码学习 Tokenizer，将图像变成离散的视觉符号（visual token），类似文本；二是，将图像切成多个小“像素块”(patch)，每个像素块相当于一个字符。这样，在用 BEiT 预训练时，模型可以随机遮盖图像的部分像素块，并将其替换为特殊的掩码符号[M]，然后在骨干网络 ViT 中不断学习、预测实际图片的样子。在 BEiT 预训练后，通过在预训练编码上添加任务层，就可以直接微调下游任务的模型参数。在图像分类和语义分割方面的实验结果表明，与以前的预训练方法相比，BEiT模型获得了更出色的结果。同时，BEiT 对超大模型（如1B或10B）也更有帮助，特别是当标记数据不足以对大模型进行有监督预训练时。

图2：BEiT预训练示意图 BEiT相关论文被 ICLR 2022 大会接收为 Oral Presentation（口头报告论文，54 out of 3391）。ICLR 大会评审委员会认为，BEiT 为视觉大模型预训练的研究开创了一个全新的方向，首次将掩码预训练应用在了 CV 领域非常具有创新性。（了解更多详情，请查看BEiT论文原文：https://openreview.net/forum?id=p-BhZSz59o4）图3：BEiT论文在ICLR 2022的评审意见

BEiT-3为 AI 多模态基础大模型研究打开新思路

在 BEiT 的基础上，微软亚洲研究院的研究员们在 BEiT-2 中进一步丰富了自监督学习的语义信息（了解更多信息，请查看 BEiT-2 论文原文：https://arxiv.org/abs/2208.06366）。近日，研究员们又将其升级到了 BEiT-3。BEiT-3 利用一个共享的 Multiway Transformer 结构，通过在单模态和多模态数据上进行掩码数据建模完成预训练，并可迁移到各种视觉、视觉-语言的下游任务中。

99科技网：http://www.99it.com.cn

共4页:

相关推荐