主页 > 快资讯 > 正文

谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

2022-08-30 18:26来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

转自:新智元


最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。


全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。

该解决方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。

然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,它的输入序列由几百个单词构成。

而对视觉任务尤其是分割问题来说,其输入序列由数万个像素组成,这不仅表明输入规模的幅度要大得多,而且与语言单词相比也代表了较低级别的嵌入。

全景分割是一个计算机视觉问题,它是现在许多应用程序的核心任务。

它分为语义分割和实例分割两部分。

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

而实例分割仅识别和分割图中的可数对象,如「行人」和「汽车」,并进一步将其划分为几个子任务。

每个子任务单独处理,并应用额外的模块来合并每个子任务阶段的结果。

这个过程不仅复杂,而且在处理子任务和整合不同子任务结果时还会引入许多人工设计的先验。

在 CVPR 2022 上发表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出从聚类的角度重新解读并且重新设计交叉注意力cross attention(也就是将相同语义标签的像素分在同一组),从而更好地适应视觉任务。

CMT-DeepLab 建立在先前最先进的方法 MaX-DeepLab 之上,并采用像素聚类方法来执行交叉注意,从而产生更密集和合理的注意图。

kMaX-DeepLab 进一步重新设计了交叉注意力,使其更像一个 k-means 聚类算法,对激活函数进行了简单的更改。

结构总览


研究人员将从聚类的角度进行重新解释,而不是直接将交叉注意力应用于视觉任务而不进行修改。

99科技网:http://www.99it.com.cn

相关推荐
上线不到两个月,昇腾AI助推“中国算力网”再添新节点 上线不到两个月,昇腾AI助推“中国算力网”再添新节点

国内算力产业近五年的平均增速超过30%,算力规模排名全球前二。

快资讯2022-08-30

ICCV何恺明团队又一神作:Transformer仍有继续改善的空间 ICCV何恺明团队又一神作:Transformer仍有继续改善的空间

一个简单、渐进、但必须知道的基线:用于 Vision Transformer 的自监督学习。

快资讯2022-08-30

谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍 谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍

神经辐射场横空出世,只需几张2D的静态图像,即可合成出该模型的3D场景表示

快资讯2022-08-30

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门 PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。

快资讯2022-08-30

商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户 商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户

商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户。

快资讯2022-08-30

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门 PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。

快资讯2022-08-30

数字经济推动消费模式创新 数字经济推动消费模式创新

中国社会科学院高端智库首席专家蔡昉认为,人口形势决定了中国经济增长的制

快资讯2022-08-26

推动中国数字贸易持续健康发展 推动中国数字贸易持续健康发展

展望未来,数字技术的迭代更新将进一步推动国际贸易融合发展,更多数字贸易

快资讯2022-08-26

数字经济推动消费模式创新 数字经济推动消费模式创新

中国社会科学院经济学部主任李扬指出,促消费不仅需要技术手段,也需要体制

快资讯2022-08-26

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

谷歌、MIT联合研究,视频问答模型计算效率提升一倍。

快资讯2022-08-24