主页 > 快资讯 > 正文

百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限(6)

2022-08-28 10:30来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

走进百度视觉

从微软离开后,王井东选择加入国内人工智能研发实力最强的平台之一:百度。 作为国内最早押注AI技术的互联网企业,百度在多个热门的人工智能赛道都有布局:语言、语音、视觉……同时,百度的搜索引擎、自动驾驶、智能云、小度等等不同业务线,也为每一项技术提供了丰富的落地场景。 王井东坦诚,他对不同方向里面的共性问题最感兴趣,比如,视觉研究中的检测与分割是OCR与自动驾驶都关注的问题,表征学习又是检测、分割、搜索等问题里的核心。尽管每个任务都有一些小的差异,但一旦从不同任务的共性问题中提取出基础技术,这项技术就能支撑多个应用。 他直接隶属于百度的技术中台,他的团队对内支持百度搜索、自动驾驶、智能云、小度等多个业务部门的视觉应用,对外通过飞桨和智能云赋能工业制造、智慧城市、智慧金融等产业领域,这一点很吸引王井东。他告诉雷峰网 AI掘 金志 ,「一干多支」,这也是他加入百度后开展视觉研究的基本思路。 从去年9月到现在,王井东在百度的时间不到一年,但在带领百度视觉发展上已经卓有成就。 作为一个浸润于卓越中成长的领军者,王井东对百度视觉目前最大的影响,可能就是对前沿研究趋势的把握与紧跟时代的实践,比如主推学术界与工业界都密切关注的、减少对数据依赖的自监督学习方法、以及视觉大模型。 在实际应用中,自监督学习带来的好处是显然的:它可以减少人工对数据的标注,降低劳动力成本,提升研发效率。在2020年的 ICLR 大会上,图灵奖得主Yann LeCun 和Yoshua Bengio就曾摇旗呐喊「自监督学习是 AI 的未来」。王井东对自监督也表现出很大的兴趣和信心,他认为,自监督学习能够从未标注的数据中学到知识,这给了大家无限的想象力。 加入百度后,他带领百度团队与北京大学、香港大学合作,提出一种自监督表征学习算法:CAE(Context Autoencoder)、新型掩码图像建模(MIM)方法,这项工作已经开源在百度飞浆平台上。在百度OCR识别技术中,就采用了自监督学习算法 CAE,效果上取得了突破性的提升。 「自监督在OCR中的应用只是第一步,我们希望对通用的图像自监督学习有更深刻的理解。」王井东正在努力推进的一个方向,是对自监督学习做数据规模化,从大量数据中学到有用的知识,这也是整个业界关注的问题。在将来,他希望能够在因果关系、预测等更高级的认知学习方面有所进展。 王井东加入百度后的另一个成就,是打造通用的视觉大模型。在今年的WAVE SUMMIT 深度学习开发者峰会上,他领导团队开发的视觉大模型发布,在百度文心大模型的版图中强化了视觉的一角。 在自动驾驶领域,王井东也带领团队开展了一些工作。例如,今年,王井东带领的百度视觉团队就与华中科技大学的研究人员合作,从端到端方案中的一个代表即 BEV(Birds-Eye-View)语义分割出发,提出了一个 GitNet 架构来解决自动驾驶中的感知问题。这项工作发表在了今年的视觉顶会 ECCV 上。 尽管加入百度的时间还不长,但上述的工作已足以诠释王井东在企业做研究「仰望星空、脚踏实地」的经验与精神。王井东本人也对雷峰网 AI掘 金志 表示,在企业里做研究,有的人会说产品需求是一种制约,有的人也会说这是一种可以利用的资源,关键在于个人如何看待。 而从王井东的履历来看,显然他是看向了后者。 以下是AI掘金志与王井东探讨视觉发展技术的部分问答整理: AI掘金志 :基于未来几年的计算机视觉发展趋势,您在百度的研究规划是什么?您重点关注什么? 王井东 :第一,从方法上讲,大家越来越趋于Transformer这个方向。Transformer几乎统一了自然语言、视觉、语音等等不同的信号,大家都希望有一个统一的框架出现,这是我们关注的。 第二是规模化。你要处理更多的数据,那么你能不能从海量的数据中学到你想要的知识。归纳起来,就是数据量给你的知识规模,同时也包括模型参数的规模化。规模化是未来视觉里备受关注的一个方向。 第三个就是我刚才讨论的自监督,因为它给大家带来了无限的想象力。 AI掘金志 :您怎么看「通用人工智能」(GAI)? 王井东 :我其实觉得现在谈通用人工智能还是有点太早了。从我们的路径来讲,我们希望一步一个脚印,把每个环节都弄透了,我们认为可以的时候,再朝着通用人工智能的方向走。当然每个人的观点是不一样的。 我自己很喜欢 Transformer。Transformer 里面最关键的是注意力(Attention)。为什么我喜欢它呢?很多年前,我跟权龙老师读博时,他就说,视觉识别领域最重要的就是两个点,一个是特征,一个是匹配。而Attention天然就是干这个事儿的。Attention本身就是一个搜索、匹配的过程。同时,在Transformer里面,它也是学习特征的过程。我自己看好Transformer的一个很大的原因是,它把特征与匹配完美地融合到了 Attention 机制里。所以我觉得将来它有可能成为网络结构统一的助推。 另外,Attention非常直观、可解释性强。以前大家都说CNN要往可解释性的方向走,要能解释一些网络结构,要费很多功夫去解释。但Attention可以直接告诉你,它本来就是可解释的,是非常直观的。 Transformer作为Backbone(骨干网络),真的比CNN有优势吗?这是个值得思考的问题。我们去年上半年做了一些工作,分析了transformer中local (window) attention 跟卷积神经网络(特别是depth-wise convolution)之间的关系。 论文地址:https://arxiv.org/pdf/2106.04263.pdf 后来发表在今年的ICLR(机器学习领域的一个重要会议)。这项工作应用了矩阵分析里面的一些知识,当你把local attention跟depth-wise convolution写成矩阵的形式,就会发现它们很相像,某种意义上是等价的。我们这项工作表明,基于local attention 的Transformer,在结果和效率上跟卷积很类似,没有谁强谁弱。 前几年,我们还做过一个工作,提出了一个方法「OCRNet」(不是「光学字符识别」)。在这个工作中,我们就用了一个attention的机制去做分割,后来我们研究目标的检测方法 DERT,提出了Conditional DERT 方法,发现其实attention工作的原理跟人去做目标检测的原理是一样的。 什么意思呢?我们在做目标检测时,直观上也要找到目标的bounding box,即最上面一条边、最左边一条边、最下面一条边和最右边一条边,那我们怎么去找?我们人工去标注的时候是会找你最上面、最下面、最左边、最右边的那个点分别在哪,而 Conditional DERT在检测时也是这样做的。这非常有意思,这也是为什么我觉得 Transformer 在视觉识别领域有可能成为一个统一框架的原因之一。 AI掘金志 :您觉得在百度研究视觉有什么独特的机会与优势? 王井东 :我谈谈我自己的一些感受,每个人的感受可能是不太一样的。 对我来讲,我觉得,首先你在公司做计算机视觉,得有一个很好的应用背景,百度正好提供了非常丰富的应用需求。 其次,百度在计算机视觉上有很好的积累,2012年成立了多媒体部,2013年成立了深度学习研究院(IDL),百度有很强的技术积累。计算机视觉在今天离不开深度学习,而百度有很强的深度学习平台(Paddle Paddle),还有深度学习技术与应用国家工程研究中心。 第三点,就是百度有很强、很浓厚的技术基因,对技术有信仰。可能不仅仅是计算机视觉的技术,其他技术也是一样,很多有技术理想的人去做事情,这是我目前看到的一些特点。 AI掘金志 :谈谈您多年来做科研的感受。 王井东 :科研创新是搜索的过程。科研创新本质上不是在创造新东西,事实上那些东西本来就在,只是被发现了。科研创新是寻找的过程,就像捉迷藏,只有不停的找,才可能找到答案。 勤于思考。创新就是做些未知的东西,没有现成的可以参考。这个时候需要思考,通过写作来深度思考、完善思考、修改思考,分享写作的内容以得到更加有效的反馈,最终提升做事的效率。 做事要够狠。更多的是对自己要狠,要有把事情彻底搞清楚的勇气和自己能够搞清楚的信心。也是跟自己过不去,在做一些自己不知道答案是什么、甚至可能没有答案的事情,这是一个经历无数次失败后才可以看到成功的过程。

99科技网:http://www.99it.com.cn

相关推荐
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

本文介绍了深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多

快资讯2022-08-28

当百度输入法上新「虚拟博主」功能: AI能力主导下的体验升维 当百度输入法上新「虚拟博主」功能: AI能力主导下的体验升维

提到输入法你会想到什么?

快资讯2022-08-28

万亿 AIoT,「AI 视觉」企业群雄逐鹿 万亿 AIoT,「AI 视觉」企业群雄逐鹿

AI浪潮席卷而来,为企业带来智能化的升级。

快资讯2022-08-24

百度成为恒指首个AI公司,AI商业大局已定? 百度成为恒指首个AI公司,AI商业大局已定?

投资机构方面,对冲基金桥水,加拿大养老基金等投资方加仓百度,高盛、摩根

快资讯2022-08-24

行业前沿 | 一种视觉惯性组合导航无人系统开发验证平台 行业前沿 | 一种视觉惯性组合导航无人系统开发验证平台

随着无人机、无人车以及移动机器人的井喷式发展,导航技术成为了制约无人平

快资讯2022-08-24

当百度输入法上新「虚拟博主」功能: AI能力主导下的体验升维 当百度输入法上新「虚拟博主」功能: AI能力主导下的体验升维

提到输入法你会想到什么?

快资讯2022-08-24

“时光流转”指尖 百度输入法把紫禁城节日文化“装进”手机 “时光流转”指尖 百度输入法把紫禁城节日文化“装进”手机

粽子飘香艾草芳,龙舟争渡闹春江。6月3日,百度输入法再次牵手“故宫中国节

快资讯2022-08-15

百度新一轮干部轮岗:沈抖负责智能云事业群组 百度新一轮干部轮岗:沈抖负责智能云事业群组

5月5日,百度公司宣布新一轮干部轮岗:执行副总裁沈抖出任智能云事业群组(

快资讯2022-08-15

元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观? 元宇宙标准正在构建:Meta、微软牵头,字节、百度只是旁观?

近日,有消息称腾讯正式宣布成立XR部门,备战即将到来的元宇宙时代。VR、A

快资讯2022-08-13

百度推出自动驾驶付费出行服务:起步价16元,里程单价2.8元/公里 百度推出自动驾驶付费出行服务:起步价16元,里程单价2.8元/公里

8月9日消息,近日, 重庆、武汉两地政府部门率先发布自动驾驶全无人商业化试

快资讯2022-08-09