主页 > 快资讯 > 正文

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了(2)

2022-09-15 13:00来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

BEiT与MAE,视觉自监督的路线之争

关于微软的BEiT系列,全称为 B idirectional E ncoder representation from I mage T ransformers,比大家熟悉的语言模型 BERT 多了个“Image”。 其主要思想就是借鉴BERT,把掩码建模方法用到视觉任务上,做视觉的自监督学习,解决高质量标注数据难以获得的难题。 初代BEiT论文于去年6月发表,比同类工作何恺明的MAE还要早一些,也是MAE论文中的主要比较对象之一。

初代BEiT,惜败MAE

两项研究都是用“先掩码再预测”来做预训练任务,最大的区别在于BEiT会把视觉token离散化、最后模型预测的是 token ,而MAE则是直接预测 原始像素 。 △ 初代BEiT的架构 在三大视觉任务上,MAE比当时的BEiT略胜一筹。并且因方法更简单直接,MAE运行起来也要快上不少 (3.5倍) 。 为了证明在MAE中token化这一步并无必要,何恺明团队在论文中还特意做了消融试验。 结果表明,两种方法统计上并无显著差异,对于MAE来说预测原始像素就足够了。 不过BEiT团队并没有放弃离散化token这个方法,而是沿着这个思路继续探索下去。

VL-BEiT,初探多模态

一年之后,团队发表了多模态模型VL-BEiT,可以算作是现在这篇BEiT-3的雏形。 VL-BEiT已经用上了共享Attenion层、再对不同任务连接不同FFN层的架构。 这一思想其实来自同一团队更早之前一篇论文 VLMo ,对每个模态设置一个专家层的方法称为MoME (Mixture-of-Modality-Experts) 。 不过,VL-BEiT在预训练任务上还比较复杂,会对文本数据和图像数据分别做掩码建模,至于多模态图文对数据也是分开处理的。 最后结果,VL-BEiT在多模态任务和纯视觉任务上表现都不错,但还不像现在的BEiT-3这样大杀四方。 不过别急,突破口很快就被找到。

BEiT v2,把token提升到语义级

BEiT-3发表仅一周之前,微软与国科大团队合作发表了一篇BEiT v2。 两者命名方式有细微差别,因为BEiT v2确实代表是BEiT的升级版。 而BEiT-3的3论文中虽未明说,但说的大概不是“第三代”,而是另有所指 (稍后揭秘) 。 说回到BEiT v2,这篇论文重新专注于纯视觉,在初代BEiT基础上提出了新的语义级tokenizer。 具体来说,BEiT v2引入了 矢量量化 (Vector-Quantized) 和 知识蒸馏 (Knowledge Distillation) 来训练tokenizer。 同样是做离散化token,新方法能重建知识蒸馏中教师模型的语义特征,大大提高token中携带的语义信息,从而提高模型性能。 接下来,教师模型用谁就很关键了。 在对比了FAIR的 DINO 模型和OpenAI的 CLIP 模型之后,团队发现还是CLIP更香。 最终结果上,BEiTv2性能反超MAE和这段时间出现的其他方法,重回SOTA。

99科技网:http://www.99it.com.cn

相关推荐
增收靠补贴!营收再放缓,科大讯飞何时能“喂饱” 增收靠补贴!营收再放缓,科大讯飞何时能“喂饱”

AI,也就是人工智能,这一行业是研究、开发计算机科学来模拟、延伸和拓展人

快资讯2022-09-15

Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生? Omniverse激活 “数字虫洞”,围观《星球:重启》数字人李星澜如何诞生?

AI几乎是贯穿英伟达历届GTC的不衰主题,而与AI密不可分的机器人、数字人则是

快资讯2022-09-15

人工智能的进步与在机器中创造人类智能不同 人工智能的进步与在机器中创造人类智能不同

“人工智能(AI)”一词实际上有两种含义,既指将人类智能构建到计算机中的基

快资讯2022-09-15

岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想 岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想

特斯拉前AI总监点赞!这个开源AI艺术创作模型,想要开启「人机合作」艺术创

快资讯2022-09-15

中国深度学习平台逆袭,只是因为“国潮”吗? 中国深度学习平台逆袭,只是因为“国潮”吗?

一直到今天,柯洁也未必知道,他2017年看似输给了阿尔法狗,但实际上是输给

快资讯2022-09-15

“AI的命也是命”?人类与AI之间还有明确界线吗 “AI的命也是命”?人类与AI之间还有明确界线吗

当人工智能变得越来越强,越来越多地出现在人类身边,“我们应如何看待AI”

快资讯2022-09-15

生物识别技术在金融领域应用 生物识别技术在金融领域应用

生物特征作为 身份认证增强模式,加固安全认证能力。传统用户名加密码或短

快资讯2022-09-15

乐橙以提升人们美好生活品质为己任,推出新品,助您智慧“管”家 乐橙以提升人们美好生活品质为己任,推出新品,助您智慧“管”家

生活条件的改善,加上科技水平的提高,家庭安全问题开始被更多人关注到。家

快资讯2022-09-15

【异乡味浓情,驿站度中秋】——苏州阳澄湖服务区“灯”你来 【异乡味浓情,驿站度中秋】——苏州阳澄湖服务区“灯”你来

白居易有首诗中写道:西北望乡何处是,东南见月几回圆。9月10日正值中秋佳节

快资讯2022-09-14