主页 > 快资讯 > 正文

谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022(2)

2022-08-30 18:26来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

具体来说,他们注意到Mask Transformer 对象查询可以被认为是集群中心(旨在对具有相同语义标签的像素进行分组)。

交叉注意力的过程类似于 k-means 聚类算法,(1)将像素分配给聚类中心的迭代过程,其中可以将多个像素分配给单个聚类中心,而某些聚类中心可能没有分配的像素,以及(2)通过平均分配给同一聚类中心的像素来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。


在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定了交叉注意力,其中包括迭代聚类分配和聚类更新步骤

鉴于 k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作),实际上将聚类中心分配给相反,像素是沿集群中心应用的。

在 kMaX-DeepLab 中,我们进一步将空间方式的 softmax 简化为集群方式的 argmax(即沿集群中心应用 argmax 操作)。

他们注意到 argmax 操作与 k-means 聚类算法中使用的硬分配(即一个像素仅分配给一个簇)相同。

从聚类的角度重新构建MaskTransformer的交叉注意力,显著提高了分割性能,并简化了复杂的Masktransformer管道,使其更具可解释性。

首先,使用编码器-解码器结构从输入图像中提取像素特征。然后,使用一组聚类中心对像素进行分组,这些像素会根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后一个分配可直接用作分割预测。


为了将典型的MaskTransformer解码器(由交叉注意力、多头自注意力和前馈网络组成)转换为上文提出的k-means交叉注意力,只需将空间方式的softmax替换为集群方式最大参数。

本次提出的 kMaX-DeepLab 的元架构由三个组件组成:像素编码器、增强像素解码器和 kMaX 解码器。

像素编码器是任何网络主干,用于提取图像特征。

增强的像素解码器包括用于增强像素特征的Transformer编码器,以及用于生成更高分辨率特征的上采样层。

一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量,其与像素特征相乘以生成预测Mask,以及 (2) 每个Mask的类预测。

kMaX-DeepLab 的元架构

99科技网:http://www.99it.com.cn

相关推荐
上线不到两个月,昇腾AI助推“中国算力网”再添新节点 上线不到两个月,昇腾AI助推“中国算力网”再添新节点

国内算力产业近五年的平均增速超过30%,算力规模排名全球前二。

快资讯2022-08-30

ICCV何恺明团队又一神作:Transformer仍有继续改善的空间 ICCV何恺明团队又一神作:Transformer仍有继续改善的空间

一个简单、渐进、但必须知道的基线:用于 Vision Transformer 的自监督学习。

快资讯2022-08-30

谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍 谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍

神经辐射场横空出世,只需几张2D的静态图像,即可合成出该模型的3D场景表示

快资讯2022-08-30

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门 PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。

快资讯2022-08-30

商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户 商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户

商汤科技推出首款消费级机器人「元萝卜」:让产业级AI技术走进千家万户。

快资讯2022-08-30

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门 PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。

快资讯2022-08-30

数字经济推动消费模式创新 数字经济推动消费模式创新

中国社会科学院高端智库首席专家蔡昉认为,人口形势决定了中国经济增长的制

快资讯2022-08-26

推动中国数字贸易持续健康发展 推动中国数字贸易持续健康发展

展望未来,数字技术的迭代更新将进一步推动国际贸易融合发展,更多数字贸易

快资讯2022-08-26

数字经济推动消费模式创新 数字经济推动消费模式创新

中国社会科学院经济学部主任李扬指出,促消费不仅需要技术手段,也需要体制

快资讯2022-08-26

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

谷歌、MIT联合研究,视频问答模型计算效率提升一倍。

快资讯2022-08-24