主页 > 元宇宙 > 正文

听声辨物,这是AI视觉该干的???|ECCV 2022

2022-09-17 13:44来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。 能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢? 来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的 视听分割 任务 (Audio-Visual Segmentation, AVS) 。 视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。 相应的,研究人员提出了第一个具有像素级标注的视听数据集 AVSBench 。 新任务、新的数据集,搞算法的又有新坑可以卷了。 据最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。 视听表征学习 (audio-visual learning) 已经催生了很多有趣的任务,比如视听通信 (AVC) 、视听事件定位 (AVEL) 、视频解析 (AVVP) 、声源定位 (SSL) 等。 这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。 但无论哪一种,离精细化的视听场景理解都差点意思。 △ AVS 任务与 SSL 任务的比较 视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌—— 即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢? 鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置: 1、单声源 (Single-source) 下的视听分割

2、多声源 (Multi-sources) 下的视听分割

数据集中的每个视频时长5秒。 单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。 △ AVSBench单源子集的数据分布 多声源子集则包含了424个视频。 结合难易情况,单声源子集在 半监督 条件下进行,多声源子集则以 全监督 条件进行。 研究人员对AVSBench里的每个视频等间隔采样5帧,然后 人工 对发声体进行像素级标注。 对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。 △ 对单声源子集和多声源子集进行不同人工标注 这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。 吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。 △ 视听分割框架图 这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。 另外,还有两个网络优化目标。 一是计算预测图和真实标签的损失。 而针对多声源情况,研究人员提出了 掩码视听匹配损失函数 ,用来约束发声物和音频特征在特征空间中保持相似分布。

99科技网:http://www.99it.com.cn

相关推荐
拿版税开刀,NFT交易市场要变天了 拿版税开刀,NFT交易市场要变天了

区块链的不可篡改性和链上透明性,保证了 NFT 承载的加密艺术的资产确权、可

元宇宙2022-08-31

玩VR也能摔倒死亡? 这是VR历史上首例死亡意外 玩VR也能摔倒死亡? 这是VR历史上首例死亡意外

原标题:玩VR也能摔倒死亡 这是VR历史上首例死亡意外 大家都知道,VR技术目前

元宇宙2018-01-23

《VR女孩2》评测:很难想象这是2017年的产物 《VR女孩2》评测:很难想象这是2017年的产物

原标题:《VR女孩2》评测:很难想象这是2017年的产物 《VR女孩2》(Virtual Realit

元宇宙2018-01-02