主页 > 快资讯 > 正文

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

2022-08-24 11:32来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

磐创AI分享

转自 | 磐创AI

编辑 |David

【导读】 谷歌、MIT联合研究,视频问答模型计算效率提升一倍。 视频是一种无处不在的媒体内容源,涉及到人们日常生活的许多方面。 越来越多的现实世界的视频应用,如视频字幕、内容分析和视频问答(VideoQA),都依赖于能够将视频内容与文本或自然语言联系起来的模型。

其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息,比如场景中的目标,以及时间信息,比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。 此外,由于视频有许多帧,处理全部的帧来学习时空信息,可能在计算上成本过高。 论文链接: https://arxiv.org/pdf/2208.00934.pdf 为了解决这个问题,在「Video Question Answering with Iterative Video-Text Co-Tokenization」一文中,谷歌和MIT的研究人员介绍了一种视频-文本学习的新方法,称为「迭代共同标记」,能够有效地融合空间、时间和语言信息,用于视频问答的信息处理。 这种方法是多流的,用独立的骨干模型处理不同规模的视频,产生捕捉不同特征的视频表示,例如高空间分辨率或长时间的视频。 模型应用「共同认证」模块,从视频流与文本的融合中学习有效表示。模型计算效率很高,只需67GFLOPs,比以前的方法至少低了50%,同时比其他SOTA的模型有更好的性能。

视频-文本迭代

该模型的主要目标是从视频和文本(即用户问题)中产生特征,共同允许它们的相应输入进行互动。 第二个目标是以有效的方式做到这一点,这对视频来说非常重要,因为它们包含几十到几百帧的输入。

该模型学会了将视频-语言的联合输入标记为较小的标记集,以联合和有效地代表两种模式。在标记化时,研究人员使用两种模式来产生一个联合的紧凑表示,该表示被送入一个转换层以产生下一级的表示。 这里的一个挑战,也是跨模态学习中的典型问题,就是视频帧往往并不直接对应于相关的文本。研究人员通过增加两个可学习的线性层来解决这个问题,在标记化之前,统一视觉和文本特征维度。这样一来,研究人员就可以让视频和文本都能制约视频标记的学习方式。 此外,单一的标记化步骤不允许两种模式之间的进一步互动。为此,研究人员使用这个新的特征表示与视频输入特征互动,并产生另一组标记化的特征,然后将其送入下一个转化器层。 这个迭代过程中会创建新的特征或标记,表示对两种模式的联合表示的不断完善。最后,这些特征被输入到生成文本输出的解码器中。 按照视频质量评估的惯例,在对个别视频质量评估数据集进行微调之前,研究人员对模型进行预训练。 在这项工作中,研究人员使用基于语音识别的文本自动注释的视频,使用HowTo100M数据集,而不是在大型VideoQA数据集上预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频-文本特征。

99科技网:http://www.99it.com.cn

相关推荐
苹果这款产品终于击败微软,面前只有谷歌 苹果这款产品终于击败微软,面前只有谷歌

6月1日,根据Atlas VPN团队的调查数据显示,目前有19%的互联网用户正在使用Saf

快资讯2022-08-16

谷歌宣布收购MicroLED显示屏公司Raxium 谷歌宣布收购MicroLED显示屏公司Raxium

据报道,谷歌硬件主管 Rick Osterloh证实,谷歌已收购拥有MicroLED技术的初创公司

快资讯2022-08-15

京东、网易等88家中概股被美证监会列入“预摘牌”名单 京东、网易等88家中概股被美证监会列入“预摘牌”名单

据美国SEC官网显示,该机构周三(5月4日)将88家中概股加入“预摘牌”名单,

快资讯2022-08-15

人、链、物 智能化价值排序 人、链、物 智能化价值排序

多轴机器臂密布、AGV(无人搬运车)到处跑、人员稀少(黑灯工厂)……今天,

快资讯2022-08-15

300块能买到?小米手环7 Pro来了:屏幕更大、续航更强 300块能买到?小米手环7 Pro来了:屏幕更大、续航更强

6月30日消息, 小米手机官方宣布,新款小米手环7 Pro将在7月4日晚,与小米12S系

快资讯2022-08-15

苹果、谷歌、微软宣布将联合推广无密码登录技术 苹果、谷歌、微软宣布将联合推广无密码登录技术

昨日,苹果、谷歌和微软这三大科技巨头在一项联合计划中宣布,他们将致力于

快资讯2022-08-15

元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观? 元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观?

近日,有消息称腾讯正式宣布成立XR部门,备战即将到来的元宇宙时代。VR、A

快资讯2022-08-13

趣丸集团发布首份社会责任报告,网络保护、乡村振兴成果显著 趣丸集团发布首份社会责任报告,网络保护、乡村振兴成果显著

5月6日,趣丸集团发布2020-2021企业社会责任报告(下称报告)。这是趣丸集团发

快资讯2022-08-13

内鬼干的?谷歌Pixel 7真机提前开卖:3000多元 内鬼干的?谷歌Pixel 7真机提前开卖:3000多元

5月31日,据外媒Android Police报道,有网友在购物网站eBay上意外发现一台正在出售

快资讯2022-08-12

产教融合培养研究生 怎样才能让学校、企业“动真格” 产教融合培养研究生 怎样才能让学校、企业“动真格”

校企联合培养研究生能够阶段性地满足企业的人力资源需求;在这种以工程实践

快资讯2022-08-12