主页 > 快资讯 > 正文

谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?

2023-02-27 19:36来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号


来源 | 机器之心

【导读】 模型预测和预期使用之间存在错位,不利于 CV 模型的部署,来自谷歌等机构的研究者用强化学习技术的奖励函数,从而改善了计算机视觉任务。

ChatGPT 的火爆有目共睹,而对于支撑其成功背后的技术,监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域,包括计算机视觉(CV)。 我们知道,在处理计算机视觉中的复杂输出时,成功的主要标准不在于模型对训练目标的优化程度,而在于预测能力与任务的吻合程度,即模型在预期用途上的表现效果。 为了追求这种一致性,有研究者在模型架构、数据、优化、采样、后处理等方面进行了一些改进。例如,在物体检测任务中,研究人员使用了 NMS(non-maximum suppression )、基于集合的全局损失(set-based global loss)以及改变输入数据来获得在测试时具有改进行为的模型。虽然这些方法带来了显著的收益,但它们往往只对特定任务有用,仅仅是间接地对任务风险进行了优化。 不仅 CV,包括自然语言处理(NLP)、强化学习(RL)等领域也在广泛研究这一现象。在这些领域中,对于目标不太明确的任务,如翻译或生成摘要,制定优化目标非常困难。在处理这类问题时, 一种流行的方法是学习模仿例子的输出,然后进行强化学习,使模型与奖励函数保持一致 。 使用这种方法,NLP 领域产生了令人兴奋的结果,该方法使用大型预训练语言模型和由人类反馈定义的奖励来处理原本难以指定的任务。 此外,同样的方法被广泛用于图像字幕任务中,其中 CIDEr(Vedantam 等人 2015 年提出)被用来作为奖励。尽管如此,据了解,奖励优化以前还没有在(非文本)计算机视觉任务中进行过探索。 近日,谷歌大脑团队的研究者在论文《Tuning computer vision models with task rewards》中证明了, 使用 REINFORCE 算法(Williams 于 1992 提出)来调整(Tuning)具有奖励函数的预训练模型可以开箱即用地用于各种计算机视觉任务 。 其实许多关于强化学习任务的研究都会提及 Williams 的 REINFORCE 算法,可见这个算法的重要性。可以说 REINFORCE 算法是策略梯度乃至强化学习的典型代表。 论文地址:https://arxiv.org/pdf/2302.08242v1.pdf 图 1 展示了一些关键结果,主要包括目标检测、全景分割和图像着色的奖励优化带来的定量和定性改进。该研究所提出的方法在处理各种 CV 任务上简单而有效,证明了它的多功能性和适应性。尽管本文主要采用评估指标形式的奖励,但这些初步结果显示了该方法用来优化计算机视觉模型也不失为一种有效途径,这些模型具有更复杂和更难指定的奖励,例如人的反馈或整体系统性能。 推特网友对这篇文章给了一个比较全面的总结,即本文实现的功能是使用 RL 调整预训练视觉模型。研究的动因是受到 LLM 强化学习成功的启发;其效果是在目标检测、全景分割等方面性能大幅提升。并表示,这项研究可能是实现视觉 RLHF ( Reinforcement Learning from Human Feedback )的有效途径。

99科技网:http://www.99it.com.cn

相关推荐
百度、谷歌接连官宣,还有多少ChatGPT竞品在路上? 百度、谷歌接连官宣,还有多少ChatGPT竞品在路上?

ChatGPT 的竞品们要来了。

快资讯2023-02-08

ChatGPT全面引爆AI搜索大战!美银:谷歌具有更大竞争优势 ChatGPT全面引爆AI搜索大战!美银:谷歌具有更大竞争优势

随着AI之战全面打响,微软公司则在周二推出了新的人工智能搜索引擎必应(

快资讯2023-02-08

5天注册用户超100万,ChatGPT让谷歌百度坐不住了 5天注册用户超100万,ChatGPT让谷歌百度坐不住了

对搜索引擎领域的绝对头部企业来说,不是一个好消息。

快资讯2023-02-08

谷歌seo优化公司外贸建站数聚梨整站谷歌优化方案 谷歌seo优化公司外贸建站数聚梨整站谷歌优化方案

搜索引擎是如今大家在互联网使用中最常用,同时也是最重要的功能。而谷歌,被

快资讯2022-11-20

「扩散模型」首篇综述+论文分类汇总,谷歌&北大最新研究 「扩散模型」首篇综述+论文分类汇总,谷歌&北大最新研究

最近爆火的“ 扩散模型 (diffusion model)”首篇综述来了。

快资讯2022-09-19

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

谷歌、MIT联合研究,视频问答模型计算效率提升一倍。

快资讯2022-09-15

谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换 谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换

给Imagen加上“指哪打哪”的能力,会变得有多强?

快资讯2022-09-15

Yann LeCun开怼谷歌研究:目标传播早就有了,你们创新在哪里? Yann LeCun开怼谷歌研究:目标传播早就有了,你们创新在哪里?

在昨日的学术圈,图灵奖得主Yann LeCun对谷歌的一项研究发起了质疑。

快资讯2022-08-30

谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022 谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

快资讯2022-08-30

谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍 谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍

神经辐射场横空出世,只需几张2D的静态图像,即可合成出该模型的3D场景表示

快资讯2022-08-30