通用多模态基础模型BEiT-3：引领文本、图像、多模态预训练迈向“大一统”(3)

2022-09-01 18:52来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

图4：BEiT-3 预训练示意图 BEiT-3 的创新之处包含三个方面：骨干网络：Multiway Transformer。研究员们将 Multiway Transformer 作为骨干网络以对不同模态进行编码。每个 Multiway Transformer 由一个共享的自注意力模块（self-attention）和多个模态专家(modality experts)组成，每个模态专家都是一个前馈神经网络（feed-forward network）。共享自注意力模块可以有效学习不同模态信息的对齐，并对不同模态信息深度融合编码使其更好地应用在多模态理解任务上。根据当前输入的模态类别，Multiway Transformer 会选择不同模态专家对其进行编码以学习更多模态特定的信息。每层 Multiway Transformer 包含一个视觉专家和一个语言专家，而前三层 Multiway Transformer 拥有为融合编码器设计的视觉-语言专家。针对不同模态统一的骨干网络使得 BEiT-3 能够广泛地支持各种下游任务。如图4所示，BEiT-3 可以用作各种视觉任务的骨干网络，包括图像分类、目标检测、实例分割和语义分割，还可以微调为双编码器用于图像文本检索，以及用于多模态理解和生成任务的融合编码器。图5：BEiT-3 可迁移到各种视觉、视觉-语言的下游任务预训练任务：掩码数据建模（masked data modeling）。研究员们在单模态（即图像与文本）和多模态数据（即图像-文本对）上通过统一的掩码-预测任务进行 BEiT-3 预训练。预训练期间，会随机掩盖一定百分比的文本字符或像素块，模型通过被训练恢复掩盖的文本字符或其视觉符号，来学习不同模态的表示及不同模态间的对齐。不同于之前的视觉-语言模型通常采用多个预训练任务，BEiT-3 仅使用一个统一的预训练任务，这对于更大模型的训练更加友好。由于使用生成式任务进行预训练，BEiT-3 相对于基于对比学习的模型也不需要大批量训练，从而缓解了 GPU 显存占用过大等问题。扩大模型规模：BEiT-3 由40层 Multiway Transformer 组成，模型共包含19亿个参数。在预训练数据上，BEiT-3 基于多个单模态和多模态数据进行预训练，多模态数据从五个公开数据集中收集了大约1,500万图像和2,100万图像-文本对；单模态数据使用了1,400万图像和160GB文本语料。 “BEiT 系列研究有一个一以贯之的思想和原则，就是我们认为从通用技术层面看图像也可视为一种‘语言’（Imglish），从而可以以统一的方式对图像、文本和图像-文本对进行建模和学习。如果说 BEiT 引领和推进了生成式自监督预训练从 NLP 到 CV 的统一，那么，BEiT-3 实现了生成式多模态预训练的统一，”微软亚洲研究院自然语言计算组首席研究员韦福如说。 BEiT-3 使用 Multiway Transformer 有效建模不同的视觉、视觉-语言任务，并通过统一的 mask data modeling 作为预训练目标，这使得 BEiT-3 成为了通用基础模型的重要基石。“BEiT-3 既简单又有效，为多模态基础模型扩展打开了一个新方向。接下来，我们还将持续进行对 BEiT 的研究，以促进跨语言和跨模态的迁移，推动不同任务、语言和模态的大规模预训练甚至模型的大一统。”

99科技网：http://www.99it.com.cn

共4页:

相关推荐