主页 > 快资讯 > 正文

阿里“通义”大模型炸场WAIC,背后要从一篇论文讲起

2022-09-05 11:08来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

“技术路线全公开,核心模型开源开放,应用场景200多个……” 在大模型这块,阿里直接在WAIC上憋了个大的—— 通义 大模型系列。 技术 上,不光在NLP等单模态场景实现SOTA,许多多模态任务也实现了引领。 比如VQA challenge第一,准确率首超人类表现: 更硬核的是国内首个“统一底座”,业界首次实现模态表示、任务表示、模型结构统一。 不引入新增结构,单一模型就可以同时处理超过10项跨模态任务,升级后可以处理超过30种。 落地应用 上,更是已经深入到电商、设计、医疗、法律、金融等行业,服务超过200个场景。 直接看文生图创作,中国风、科幻风、电影感、游戏场景、反现实风……全都不在话下。 资源消耗 相对也不高,以通义系列中的M6大模型为例,相同参数规模下训练能耗仅是GPT-3的1%。 在落地层面,这次阿里也推出了新的技术框架,减少了大模型使用时的算力消耗,运行可提速10倍。 概括起来就是,既 通用多种任务 ,又 容易落地应用 。 要知道,大模型落地几乎是行业公认的难题,“通用”很多时候意味着“大而全”,效率经常就跟不上。 而这次,阿里提出了统一底座+模型体系的技术路线,一言蔽之,就是“大一统”+“层次化”。不管是通用性还是易用性,都要做到极致。 这背后究竟有着什么样的底气?

“大一统”技术,什么来头?

答案早就藏在达摩院发布的一系列大模型论文里。 其中有一篇关键论文,就是通义大模型背后的 核心技术支撑 ——统一学习范式OFA。 以这篇论文为技术底座,通义大模型真正具备了能搞定多种任务的“大一统”能力,变得既通用又易用: 不引入新增结构,单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,效果都很不错;升级后更是可以处理超过包括语音和动作在内的 30多种跨模态任务 。 这里“大一统”技术的关键,在于提出并实现了三个“统一”:

架构统一 。使用Transformer (encoder-decoder,编解码器) 架构,统一进行预训练和微调,无需在应对不同任务时,增加任何特定的模型层。

模态统一 。不管是NLP、CV这种单模态,还是图文等多模态任务,全都采用同一个框架和训练思路。

任务统一 。将所有单模态、多模态任务统一表达成序列到序列 (Seq2seq) 生成的形式,同类任务的输入几乎就是“一个模子里刻出来的”。

基于这一思路,模型基于2000万个图像-文本对进行预训练,就达成了多个 跨模态 任务 (图像生成、视觉定位、图像说明、图像分类等) 的SOTA,同时 单模态 任务的水平也与行业领先不相上下。 乍一看,这种“大一统”的思路,似乎与刚刚新鲜出炉的微软“六边形战士”BEiT-3理念上不谋而合,但其实两者之间存在本质不同,加上OFA最早在今年2月就已露出苗头,也不存在数据上的可比性。 微软BEiT-3在网络架构、预训练方法、规模效应 (19亿数量级参数) 上实现了“大一统”,它采用的方式是和下游任务解耦,可灵活按需定制开发,性能表现突出。 而OFA考虑的是另一种思路—— Task Scaling First ,任务规模优先。让单一模型能做尽可能多的跨模态任务,这样预训练后不新增结构,就能直接在下游任务中使用。 模型一共使用了8个任务 (含子任务共15个) 进行预训练,并固定每一类任务的提问方式 (输入) 和获取目标 (输出) : 就连输入和输出的格式都给你规定好了,不论文字、图片还是边界框,只能用一种方式作答: 这样一来,大模型看到 特定格式的问题 就知道要怎么答,就像你看到作文框“口口”就知道往里面填字,看到数学题就想写“解”。 最关键的是,这种大模型理论上具备 可扩展 的能力,就像人一样可以学到越来越多的任务模型,掌握越来越多的做题方法。 至于这些任务是什么模态?并不会对模型产生影响,看到输入知道怎么输出就行了。 当然,在扩大任务规模时,也可能会遇到直接增加任务数量,导致模型输出效果降低等情况。 因此,如何更好地设计任务分组、找到合适的指令模板,也是在未来继续扩张任务规模时需要考虑的问题,而这也是研究小组下一步的计划。 但话又说回来,这样的“大一统”技术,实际落地表现究竟如何? 在“大模型落地难”这一行业公认现状的当下,它是否真的打开了大模型 商业化应用 的突破口?

99科技网:http://www.99it.com.cn

相关推荐
上海张江×百度飞桨打了个样,AI赋能这事儿可算有“参考答案”了 上海张江×百度飞桨打了个样,AI赋能这事儿可算有“参考答案”了

说起飞桨的这个人工智能产业赋能中心,其实是百度和上海张江集团的共同手笔

快资讯2022-09-05

覆盖全国多地,惠及超18万人次:“智体双百”公益计划持续推进 覆盖全国多地,惠及超18万人次:“智体双百”公益计划持续推进

2021年9月,腾讯智体双百公益计划正式对外公布。该计划由腾讯成长守护、腾讯

快资讯2022-09-02

“换挡”进行时,百度云扛起“第二曲线” “换挡”进行时,百度云扛起“第二曲线”

全面押注AI 5年,百度由技术驱动的“营收换挡”,终于出现完成时。

快资讯2022-09-02

“饭圈女孩”,星海浏览器,让你离爱豆更进一步! “饭圈女孩”,星海浏览器,让你离爱豆更进一步!

《Gee》、《Oh!》、《Run Devil Run》、《The Boys》、《I GOT A BOY》、《Mr.Mr.》...韩国

快资讯2022-09-02

十余年深耕人工智能,百度“上云”“划桨”“驾车”行 十余年深耕人工智能,百度“上云”“划桨”“驾车”行

在科技领域,最难的一直都是持之以恒,心无旁骛地坚持。

快资讯2022-09-02

科大讯飞稳中求进 探寻“不确定”中的“确定性” 科大讯飞稳中求进 探寻“不确定”中的“确定性”

在这个“唯一的不变是变化”的世界,最大的风险,其实是 停滞不前。学会与

快资讯2022-09-02

通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统” 通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”

技术和模型的统一将会使得 AI 模型逐步标准化、规模化,从而为大范围产业化

快资讯2022-09-01

自动化技术支持工具开发商Mavenoid完成3000万美元B轮融资,降低解决硬件问题所需的成本 自动化技术支持工具开发商Mavenoid完成3000万美元B轮融资,降低解决硬件问题所需的成本

Mavenoid采用了技术人员协助的视频交互支持功能和人工智能引导的自助服务功能

快资讯2022-09-01

谷医堂又获美誉,谷医堂志在“百年企业” 谷医堂又获美誉,谷医堂志在“百年企业”

湖南谷医堂屡屡获得行业各类奖项,最近再次收获行业美誉谷医堂自成立至今,

快资讯2022-09-01

服务不停摆 孚惠教育暖心行动应“战疫” 服务不停摆 孚惠教育暖心行动应“战疫”

在疫情的影响下,很多地方仍没有复工,作为一家有社会责任感,有温度的爱心企业

快资讯2022-09-01