听声辨物，这是AI视觉该干的？？？｜ECCV 2022

2022-09-17 13:44来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

听到“唔哩——唔哩——”的警笛声，你可以迅速判断出声音来自路过的一辆急救车。能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢？来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务（Audio-Visual Segmentation, AVS) 。视听分割，就是要分割出发声物，而后生成发声物的精细化分割图。相应的，研究人员提出了第一个具有像素级标注的视听数据集 AVSBench 。新任务、新的数据集，搞算法的又有新坑可以卷了。据最新放榜结果，该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里，声音信号和视觉信号往往是互补的。视听表征学习（audio-visual learning）已经催生了很多有趣的任务，比如视听通信（AVC）、视听事件定位（AVEL）、视频解析（AVVP）、声源定位（SSL）等。这里面既有判定音像是否描述同一事件/物体的分类任务，也有以热力图可视化大致定位发声物的任务。但无论哪一种，离精细化的视听场景理解都差点意思。 △ AVS 任务与 SSL 任务的比较视听分割“迎难而上”，提出要准确分割出视频帧中正在发声的物体全貌—— 即以音频为指导信号，确定分割哪个物体，并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢？鉴于当前还没有视听分割的开源数据集，研究人员提出AVSBench 数据集，借助它研究了新任务的两种设置： 1、单声源（Single-source）下的视听分割

2、多声源（Multi-sources）下的视听分割

数据集中的每个视频时长5秒。单声源子集包含23类，共4932个视频，包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。 △ AVSBench单源子集的数据分布多声源子集则包含了424个视频。结合难易情况，单声源子集在半监督条件下进行，多声源子集则以全监督条件进行。研究人员对AVSBench里的每个视频等间隔采样5帧，然后人工对发声体进行像素级标注。对于单声源子集，仅标注采样的第一张视频帧；对于多声源子集，5帧图像都被标注——这就是所谓的半监督和全监督。 △ 对单声源子集和多声源子集进行不同人工标注这种像素级的标注，避免了将很多非发声物或背景给包含进来，从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集，研究人员还抛砖引玉，在文中给了个简单的baseline。吸收传统语义分割模型的成功经验，研究人员提出了一个端到端的视听分割模型。 △ 视听分割框架图这个模型遵循编码器-解码器的网络架构，输入视频帧，最终直接输出分割掩码。另外，还有两个网络优化目标。一是计算预测图和真实标签的损失。而针对多声源情况，研究人员提出了掩码视听匹配损失函数，用来约束发声物和音频特征在特征空间中保持相似分布。

99科技网：http://www.99it.com.cn

共2页: