AI模型的大一统!多模态领域乱杀的十二边形战士(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
其实不同的任务能不能集成在一个框架,其实有几种的思考模式,比如第一种,弱联系框架。多分支独立进行特征提取工作,最后只借助 loss函数 回归彼此的信息,完成信息交互。但是这样的操作其实无法做到充分的信息共享,而且参数没有办法有效地跨模态共享,所以一个大一统多模态框架需要满足 信息共享、信息交互 的两个特点。考虑到Transformer整体架构的特性,这项工作中使用 Multiway transformer 作为骨干模型来编码不同的模态。上图所示,每个Multiway Transformer模块由一个共享的自注意模块和一组用于不同模态的前馈网络(即单一模态专家)组成。 我们根据每个输入类型,将其转化为token的形式输入到给各个模态的支路当中。 在我们的实现中,每一层都包含一个 视觉支路 和一个 语言支路 。
此外,在前三层还有为融合多模态数据而设计的视觉-语言融合支路。以获得更详细的全局特征信息。通过共享自注意模块学习到的不同特征,并对不同模态之间特征一一对齐,使得多模态(如视觉-语言)任务信息融合得更加紧密。与各自为营的集成化的多模态模型相比,大一统体系结构的BEIT-3能够支持更广泛的下游任务。例如,BEIT-3可以用作各种视觉任务的图像主干,包括图像分类、目标检测、实例分割和语义分割。它还可以通过微调,转化为一个有效的图像-文本检索双编码器,以及多模态的推理任务和视频理解任务。
一个模型可以同时满足abcde个心愿! Masked Data modeling自监督学习基于掩码数据的训练方法已经成功的运用在各个任务上。无论是及BEIT还是MAE,这种掩码的自监督的学习方法都让模型变得更加的鲁棒!我们通过统一的mask data的模式下在单模态(即图像或者文本)和多模态(即图像+文本)数据上对 BEIT-3 进行进一步的训练。
在预训练过程中,我们随机屏蔽一定比例的文本标记或给图像数据加上补丁,并通过模型的训练使其达到恢复屏蔽标记的能力。这种做法其实已经在早期的BEIT实验中取得了成功,MAE也在最近的CVPR上大放异彩。那么我们的多模态的信息还原其实也是如此。不仅能学习各自模态的表征信息,而且还可以通过这种方式学习到 不同模态之间的对齐 。具体地说,文本数据通过SentencePiece标记器进行标记。图像数据则通过BEIT-v2 的tokener将其转化为token,并将这里离散的图像信息作为重构的对象,以此来增强不同模态之间的理解,对齐两种模态的信息。
99科技网:http://www.99it.com.cn

2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大
快资讯2022-09-06
