主页 > 快资讯 > 正文

听声辨物,这是AI视觉该干的???|ECCV 2022

2022-08-30 18:11来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。 能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢? 来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的 视听分割 任务 (Audio-Visual Segmentation, AVS) 。 视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。 相应的,研究人员提出了第一个具有像素级标注的视听数据集 AVSBench 。 新任务、新的数据集,搞算法的又有新坑可以卷了。 据最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。 视听表征学习 (audio-visual learning) 已经催生了很多有趣的任务,比如视听通信 (AVC) 、视听事件定位 (AVEL) 、视频解析 (AVVP) 、声源定位 (SSL) 等。 这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。 但无论哪一种,离精细化的视听场景理解都差点意思。 △ AVS 任务与 SSL 任务的比较 视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌—— 即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢? 鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置: 1、单声源 (Single-source) 下的视听分割

2、多声源 (Multi-sources) 下的视听分割

数据集中的每个视频时长5秒。 单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。 △ AVSBench单源子集的数据分布 多声源子集则包含了424个视频。 结合难易情况,单声源子集在 半监督 条件下进行,多声源子集则以 全监督 条件进行。 研究人员对AVSBench里的每个视频等间隔采样5帧,然后 人工 对发声体进行像素级标注。 对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。 △ 对单声源子集和多声源子集进行不同人工标注 这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。 吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。 △ 视听分割框架图 这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。 另外,还有两个网络优化目标。 一是计算预测图和真实标签的损失。 而针对多声源情况,研究人员提出了 掩码视听匹配损失函数 ,用来约束发声物和音频特征在特征空间中保持相似分布。

99科技网:http://www.99it.com.cn

相关推荐
电影投资你不知道的秘密 电影投资你不知道的秘密

这是今天知乎找到我的一个受害者,他们最近已经组建了一个受害者小团队,他

快资讯2022-08-09

GalaxyA5屏幕尺寸独特 GalaxyA5屏幕尺寸独特

大家好,这是文章开头。 在今天早些时候的发布会上,三星galaxya7(2016 )和弟弟

快资讯2022-07-27

低调的安卓11功能意义重大 低调的安卓11功能意义重大

以前,Android使用名为设备状态的类来显示五种设备状态之一。 Android的设备状态

快资讯2022-07-27

小米MiBand4上市几个月了 小米MiBand4上市几个月了

大家好,这是文章开头。 Mi band是几乎所有用户的最佳附件之一。 不管你用什么

快资讯2022-07-26

NexDock Touch量产预购开始 NexDock Touch量产预购开始

大家好,这是文章开头。 NexDock以前两次出现在HEXUS的新闻页面上。 第一份报告

快资讯2022-07-26

教程:如何给手机钱包充值 教程:如何给手机钱包充值

大家好,这是文章开头。 今天我们来谈谈关于手机钱包通如何充值话费的一些

快资讯2022-07-25

教程:魏云是什么? 教程:魏云是什么?

大家好,这是文章开头。 今天,我们来谈谈关于魏云是什么,以及能做什么的

快资讯2022-07-25

教程:美图秀秀怎么修鼻子 教程:美图秀秀怎么修鼻子

大家好,这是文章开头。 今天我们来谈谈美图秀秀是怎么整鼻子的。 很多朋友

快资讯2022-07-23

如何注销教程:人人网 如何注销教程:人人网

每个人都要如何注销人人网呢? 1、首先登录人人网。 2、上次单击导航栏右侧

快资讯2022-07-23

教程:百度手机助手卸载方法 教程:百度手机助手卸载方法

百度手机助手是如何卸载消息的? 要完全卸载百度手机助手: 方法1: 1、首先用

快资讯2022-07-23