主页 > 快资讯 > 正文

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%(2)

2022-08-24 11:32来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

高效视频问答的实现

研究人员将视频语言迭代共同认证算法应用于三个主要的VideoQA基准,MSRVTT-QA、MSVD-QA和IVQA,并证明这种方法比其他最先进的模型取得了更好的结果,同时模型不至于过大。 另外,迭代式共同标记学习在视频-文本学习任务上对算力的需求也更低。

该模型只用67GFLOPS算力,是3D-ResNet视频模型和文本时所需算力(360GFLOP)的六分之一,是X3D模型效率的两倍多。并且生成了高度准确的结果,精度超过了最先进的方法。

多流视频输入

对 于VideoQA或其他一些涉及视频输入的任务,研 究人员发现,多流输入对于更准确地回答有关空间和时间关系的问题很重要。

研究人员利用三个不同分辨率和帧率的视频流:一个低分辨率、高帧率的输入视频流(每秒32帧,空间分辨率64x64,记作32x64x64);一个高分辨率、低帧率的视频(8x224x224);以及一个介于两者之间的(16x112x112)。 尽管有三个数据流需要处理的信息显然更多,但由于采用了迭代共同标记方法,获得了非常高效的模型。同时,这些额外的数据流允许提取最相关的信息。 例如,如下图所示,与特定活动相关的问题在分辨率较低但帧率较高的视频输入中会产生较高的激活,而与一般活动相关的问题可以从帧数很少的高分辨率输入中得到答案。 这种算法的另一个好处是,标记化会根据所问问题的不同而改变。

结论

研究人员提出了一种新的视频语言学习方法,它侧重于跨视频-文本模式的联合学习。 研究人员解决了视频问题回答这一重要而具有挑战性的任务。 研究人员的方法既高效又准确,尽管效率更高,但却优于目前最先进的模型。

谷歌研究人员的方法模型规模适度,可以通过更大的模型和数据获得进一步的性能改进。研究人员希望,这项工作能引发视觉语言学习方面的更多研究,以实现与基于视觉的媒体的更多无缝互动。

99科技网:http://www.99it.com.cn

相关推荐
苹果这款产品终于击败微软,面前只有谷歌 苹果这款产品终于击败微软,面前只有谷歌

6月1日,根据Atlas VPN团队的调查数据显示,目前有19%的互联网用户正在使用Saf

快资讯2022-08-16

谷歌宣布收购MicroLED显示屏公司Raxium 谷歌宣布收购MicroLED显示屏公司Raxium

据报道,谷歌硬件主管 Rick Osterloh证实,谷歌已收购拥有MicroLED技术的初创公司

快资讯2022-08-15

京东、网易等88家中概股被美证监会列入“预摘牌”名单 京东、网易等88家中概股被美证监会列入“预摘牌”名单

据美国SEC官网显示,该机构周三(5月4日)将88家中概股加入“预摘牌”名单,

快资讯2022-08-15

人、链、物 智能化价值排序 人、链、物 智能化价值排序

多轴机器臂密布、AGV(无人搬运车)到处跑、人员稀少(黑灯工厂)……今天,

快资讯2022-08-15

300块能买到?小米手环7 Pro来了:屏幕更大、续航更强 300块能买到?小米手环7 Pro来了:屏幕更大、续航更强

6月30日消息, 小米手机官方宣布,新款小米手环7 Pro将在7月4日晚,与小米12S系

快资讯2022-08-15

苹果、谷歌、微软宣布将联合推广无密码登录技术 苹果、谷歌、微软宣布将联合推广无密码登录技术

昨日,苹果、谷歌和微软这三大科技巨头在一项联合计划中宣布,他们将致力于

快资讯2022-08-15

元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观? 元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观?

近日,有消息称腾讯正式宣布成立XR部门,备战即将到来的元宇宙时代。VR、A

快资讯2022-08-13

趣丸集团发布首份社会责任报告,网络保护、乡村振兴成果显著 趣丸集团发布首份社会责任报告,网络保护、乡村振兴成果显著

5月6日,趣丸集团发布2020-2021企业社会责任报告(下称报告)。这是趣丸集团发

快资讯2022-08-13

内鬼干的?谷歌Pixel 7真机提前开卖:3000多元 内鬼干的?谷歌Pixel 7真机提前开卖:3000多元

5月31日,据外媒Android Police报道,有网友在购物网站eBay上意外发现一台正在出售

快资讯2022-08-12

产教融合培养研究生 怎样才能让学校、企业“动真格” 产教融合培养研究生 怎样才能让学校、企业“动真格”

校企联合培养研究生能够阶段性地满足企业的人力资源需求;在这种以工程实践

快资讯2022-08-12