阿里“通义”大模型炸场WAIC，背后要从一篇论文讲起

2022-09-05 11:08来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

“技术路线全公开，核心模型开源开放，应用场景200多个……” 在大模型这块，阿里直接在WAIC上憋了个大的—— 通义大模型系列。技术上，不光在NLP等单模态场景实现SOTA，许多多模态任务也实现了引领。比如VQA challenge第一，准确率首超人类表现：更硬核的是国内首个“统一底座”，业界首次实现模态表示、任务表示、模型结构统一。不引入新增结构，单一模型就可以同时处理超过10项跨模态任务，升级后可以处理超过30种。落地应用上，更是已经深入到电商、设计、医疗、法律、金融等行业，服务超过200个场景。直接看文生图创作，中国风、科幻风、电影感、游戏场景、反现实风……全都不在话下。资源消耗相对也不高，以通义系列中的M6大模型为例，相同参数规模下训练能耗仅是GPT-3的1%。在落地层面，这次阿里也推出了新的技术框架，减少了大模型使用时的算力消耗，运行可提速10倍。概括起来就是，既通用多种任务，又容易落地应用。要知道，大模型落地几乎是行业公认的难题，“通用”很多时候意味着“大而全”，效率经常就跟不上。而这次，阿里提出了统一底座+模型体系的技术路线，一言蔽之，就是“大一统”+“层次化”。不管是通用性还是易用性，都要做到极致。这背后究竟有着什么样的底气？

“大一统”技术，什么来头？

答案早就藏在达摩院发布的一系列大模型论文里。其中有一篇关键论文，就是通义大模型背后的核心技术支撑 ——统一学习范式OFA。以这篇论文为技术底座，通义大模型真正具备了能搞定多种任务的“大一统”能力，变得既通用又易用：不引入新增结构，单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务，效果都很不错；升级后更是可以处理超过包括语音和动作在内的 30多种跨模态任务。这里“大一统”技术的关键，在于提出并实现了三个“统一”：

架构统一。使用Transformer （encoder-decoder，编解码器）架构，统一进行预训练和微调，无需在应对不同任务时，增加任何特定的模型层。

模态统一。不管是NLP、CV这种单模态，还是图文等多模态任务，全都采用同一个框架和训练思路。

任务统一。将所有单模态、多模态任务统一表达成序列到序列（Seq2seq）生成的形式，同类任务的输入几乎就是“一个模子里刻出来的”。

基于这一思路，模型基于2000万个图像-文本对进行预训练，就达成了多个跨模态任务（图像生成、视觉定位、图像说明、图像分类等）的SOTA，同时单模态任务的水平也与行业领先不相上下。乍一看，这种“大一统”的思路，似乎与刚刚新鲜出炉的微软“六边形战士”BEiT-3理念上不谋而合，但其实两者之间存在本质不同，加上OFA最早在今年2月就已露出苗头，也不存在数据上的可比性。微软BEiT-3在网络架构、预训练方法、规模效应（19亿数量级参数）上实现了“大一统”，它采用的方式是和下游任务解耦，可灵活按需定制开发，性能表现突出。而OFA考虑的是另一种思路—— Task Scaling First ，任务规模优先。让单一模型能做尽可能多的跨模态任务，这样预训练后不新增结构，就能直接在下游任务中使用。模型一共使用了8个任务（含子任务共15个）进行预训练，并固定每一类任务的提问方式（输入）和获取目标（输出）：就连输入和输出的格式都给你规定好了，不论文字、图片还是边界框，只能用一种方式作答：这样一来，大模型看到特定格式的问题就知道要怎么答，就像你看到作文框“口口”就知道往里面填字，看到数学题就想写“解”。最关键的是，这种大模型理论上具备可扩展的能力，就像人一样可以学到越来越多的任务模型，掌握越来越多的做题方法。至于这些任务是什么模态？并不会对模型产生影响，看到输入知道怎么输出就行了。当然，在扩大任务规模时，也可能会遇到直接增加任务数量，导致模型输出效果降低等情况。因此，如何更好地设计任务分组、找到合适的指令模板，也是在未来继续扩张任务规模时需要考虑的问题，而这也是研究小组下一步的计划。但话又说回来，这样的“大一统”技术，实际落地表现究竟如何？在“大模型落地难”这一行业公认现状的当下，它是否真的打开了大模型商业化应用的突破口？

99科技网：http://www.99it.com.cn

共3页:

相关推荐