主页 > 快资讯 > 正文

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

2022-09-15 13:00来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。 微软这篇多模态论文刚挂上arXiv不久,就在业内引发强烈关注。 有网友将之总结成 “在所有事情上打败了所有人” 。 怎么回事?先来看这张雷达图: 橙色内圈 ,是各大任务之前的SOTA。 紫色外圈 ,就是这篇BEiT-3的结果,不仅超越,而且是全面超越。 具体一圈看下来,BEiT-3这个多模态模型不光刷遍多模态任务,连右上角的 纯视觉 三大经典任务也都刷到SOTA,简直是 六边形战士 。 知乎上一位同样做多模态研究的选手直呼 “杀死了比赛” 。 其实说起来,微软BEiT这个系列最开始做的是视觉自监督学习。 其核心思想与 何恺明的MAE 一致,甚至比MAE提出的还早一段时间,不过当时性能惜败于MAE。 如今在多模态方向上绕了一圈后,没想到能以方式横扫视觉与多模态榜单。 取得这种成果的,一般来说还不得是上百亿上千亿参数的大大大模型? 但BEiT-3总参数不过 19亿 ,甚至训练数据上也没什么秘密武器,全都用的 公开资源 。 那么,这一切是如何做到的?

把图像当成一种外语

最关键的一点,论文标题和摘要就已经指明:

把图像当成一种外语。 这样一来,文本数据是 English ,图像数据作者开了个小玩笑命名为 Imglish ,那么图文对数据就相当于 平行语料 。 那么多模态也好纯视觉也罢,都能用同一个预训练任务来处理。 在这个基础上,论文中把所做突破总结成一个词, 大一统 (Big Convergence) 。 首先,大一统表现在 网络架构 上。 通过统一多模态表示方式,对于不同任务可以共享一部分参数,采用Multiway (多路) Transformer架构作为骨干网络。 具体来说就是 共享多头自注意力层 ,输出时再根据具体任务选择 专用的FFN层 。 第二,大一统又表现在 预训练方法 上。 既然所有数据都能当成文本数据,那就可以全都按照BERT的方法,用掩码-预测来做预训练,称为Masked Data Modeling。 与基于对比学习的训练方法相比,新方法可以选用更小的Batch Size,又能额外降低显存消耗。 第三,大一统还表现在 规模效应 上。 统一的预训练任务让模型参数扩大到10亿数量级后,对下游任务的 泛化能力 增强。 另外不同模态的数据集在此方法下也产生规模效应。 团队特意只用公开数据的条件下增加训练数据集规模,结果超越了一些使用高质量私有数据的模型。 BEiT-v的训练数据来自5个公开数据集中的约 500万张图像和2100万图像-文本对 ;单模态数据则使用来自ImageNet-21K的 1400万张图像和160GB的文本语料库 。 除此之外,在规模上也远小于其它的多模态预训练模型,例如ALIGN (18亿图文对) 、CLIP (4亿图文对) 、SimVLM (18亿图文对,800GB文本) 等。 所有这些优势叠加在一起,BEiT-3就以更少的训练数据、更小 的 模型参数取得更好的性能。 在纯视觉任务 (图像分类、目标检测、语义分割) 以及多模态任务 (视觉推理、视觉问答、图像描述、微调的跨模态检索、零样本跨模态检索) 总共8类任务下超越各自之前的SOTA。 BEiT-3 这篇论文很简短,不算参考文献只有9页。 但熟悉微软BEiT系列历史的话就会知道,这项研究取得成功的意义不仅在于其自身,也不仅是多模态学习的一项突破—— 还给视觉大规模预训练这个兴起不久的领域,带来新的可能性。

99科技网:http://www.99it.com.cn

相关推荐
增收靠补贴!营收再放缓,科大讯飞何时能“喂饱” 增收靠补贴!营收再放缓,科大讯飞何时能“喂饱”

AI,也就是人工智能,这一行业是研究、开发计算机科学来模拟、延伸和拓展人

快资讯2022-09-15

Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生? Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生?

AI几乎是贯穿英伟达历届GTC的不衰主题,而与AI密不可分的机器人、数字人则是

快资讯2022-09-15

人工智能的进步与在机器中创造人类智能不同 人工智能的进步与在机器中创造人类智能不同

“人工智能(AI)”一词实际上有两种含义,既指将人类智能构建到计算机中的基

快资讯2022-09-15

岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想 岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想

特斯拉前AI总监点赞!这个开源AI艺术创作模型,想要开启「人机合作」艺术创

快资讯2022-09-15

中国深度学习平台逆袭,只是因为“国潮”吗? 中国深度学习平台逆袭,只是因为“国潮”吗?

一直到今天,柯洁也未必知道,他2017年看似输给了阿尔法狗,但实际上是输给

快资讯2022-09-15

“AI的命也是命”?人类与AI之间还有明确界线吗 “AI的命也是命”?人类与AI之间还有明确界线吗

当人工智能变得越来越强,越来越多地出现在人类身边,“我们应如何看待AI”

快资讯2022-09-15

生物识别技术在金融领域应用 生物识别技术在金融领域应用

生物特征作为 身份认证增强模式,加固安全认证能力。传统用户名加密码或短

快资讯2022-09-15

乐橙以提升人们美好生活品质为己任,推出新品,助您智慧“管”家 乐橙以提升人们美好生活品质为己任,推出新品,助您智慧“管”家

生活条件的改善,加上科技水平的提高,家庭安全问题开始被更多人关注到。家

快资讯2022-09-15

【异乡味浓情,驿站度中秋】——苏州阳澄湖服务区“灯”你来 【异乡味浓情,驿站度中秋】——苏州阳澄湖服务区“灯”你来

白居易有首诗中写道:西北望乡何处是,东南见月几回圆。9月10日正值中秋佳节

快资讯2022-09-14