主页 > 快资讯 > 正文

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

2022-09-15 13:52来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

磐创AI分享

转自 | 磐创AI

编辑 |David

【导读】 谷歌、MIT联合研究,视频问答模型计算效率提升一倍。 视频是一种无处不在的媒体内容源,涉及到人们日常生活的许多方面。 越来越多的现实世界的视频应用,如视频字幕、内容分析和视频问答(VideoQA),都依赖于能够将视频内容与文本或自然语言联系起来的模型。

其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息,比如场景中的目标,以及时间信息,比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。 此外,由于视频有许多帧,处理全部的帧来学习时空信息,可能在计算上成本过高。 论文链接: https://arxiv.org/pdf/2208.00934.pdf 为了解决这个问题,在「Video Question Answering with Iterative Video-Text Co-Tokenization」一文中,谷歌和MIT的研究人员介绍了一种视频-文本学习的新方法,称为「迭代共同标记」,能够有效地融合空间、时间和语言信息,用于视频问答的信息处理。 这种方法是多流的,用独立的骨干模型处理不同规模的视频,产生捕捉不同特征的视频表示,例如高空间分辨率或长时间的视频。 模型应用「共同认证」模块,从视频流与文本的融合中学习有效表示。模型计算效率很高,只需67GFLOPs,比以前的方法至少低了50%,同时比其他SOTA的模型有更好的性能。

视频-文本迭代

该模型的主要目标是从视频和文本(即用户问题)中产生特征,共同允许它们的相应输入进行互动。 第二个目标是以有效的方式做到这一点,这对视频来说非常重要,因为它们包含几十到几百帧的输入。

该模型学会了将视频-语言的联合输入标记为较小的标记集,以联合和有效地代表两种模式。在标记化时,研究人员使用两种模式来产生一个联合的紧凑表示,该表示被送入一个转换层以产生下一级的表示。 这里的一个挑战,也是跨模态学习中的典型问题,就是视频帧往往并不直接对应于相关的文本。研究人员通过增加两个可学习的线性层来解决这个问题,在标记化之前,统一视觉和文本特征维度。这样一来,研究人员就可以让视频和文本都能制约视频标记的学习方式。 此外,单一的标记化步骤不允许两种模式之间的进一步互动。为此,研究人员使用这个新的特征表示与视频输入特征互动,并产生另一组标记化的特征,然后将其送入下一个转化器层。 这个迭代过程中会创建新的特征或标记,表示对两种模式的联合表示的不断完善。最后,这些特征被输入到生成文本输出的解码器中。 按照视频质量评估的惯例,在对个别视频质量评估数据集进行微调之前,研究人员对模型进行预训练。 在这项工作中,研究人员使用基于语音识别的文本自动注释的视频,使用HowTo100M数据集,而不是在大型VideoQA数据集上预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频-文本特征。

99科技网:http://www.99it.com.cn

相关推荐
上市即巅峰!连年亏损、竞争加剧,格灵深瞳难破盈利困局 上市即巅峰!连年亏损、竞争加剧,格灵深瞳难破盈利困局

在过去几年中,在人工智能风口下,涌现出无数AI独角兽,商汤、旷视、云从、

快资讯2022-09-15

谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换 谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换

给Imagen加上“指哪打哪”的能力,会变得有多强?

快资讯2022-09-15

斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登Nature子刊:实现可信AI,数据的设计、完善、评估是关键

在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变

快资讯2022-09-15

斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键

数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-15

流血、止血、再造血,AI独角兽们何时涅槃? 流血、止血、再造血,AI独角兽们何时涅槃?

资本市场对它们的期待值并不算高,叠加业内竞争的加剧,各个AI公司的生存处

快资讯2022-09-15

MIT用GPT-3冒充哲学家,竟骗过了一大半专家 MIT用GPT-3冒充哲学家,竟骗过了一大半专家

Daniel Dennett是一位哲学家,最近他有了一个「AI替身」。

快资讯2022-09-15

岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想 岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想

特斯拉前AI总监点赞!这个开源AI艺术创作模型,想要开启「人机合作」艺术创

快资讯2022-09-15

鹭岛金服平台案件新进展:新增7万回款、新冻结资金30万 鹭岛金服平台案件新进展:新增7万回款、新冻结资金30万

鹭岛金服 鹭岛金服清退回款官方指定网址【www.qdg18.cc】,官方指定QQ群【662-0

快资讯2022-09-14

来鑫财富最新清退消息2022:新通知来了、回款有希望官方保障清退顺利进行、兑付唯一渠道即将开启 来鑫财富最新清退消息2022:新通知来了、回款有希望官方保障清退顺利进行、兑付唯一渠道即将开启

来鑫财富 来鑫财富清退回款官方指定网址【www.qdg18.cc】,官方指定QQ群【662-0

快资讯2022-09-14

成功的定位要做什么?定位专家顾均辉:以云澜湾、雄正为例 成功的定位要做什么?定位专家顾均辉:以云澜湾、雄正为例

企业定位主要有三大方法:抢先定位、关联定位和重新定位,每种方法适用的企

快资讯2022-09-13