主页 > 快资讯 > 正文

LeCun力推!以一己之力发布史上最全的Transformer分类和索引,36页PDF含60个模型(2)

2023-02-23 11:53来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

对编码器和解码器进行联合训练以最小化条件对数似然。训练完成后,编码器/解码器就可以根据给定输入序列的生成一个输出,或者可以给一对输入/输出序列打分。

在最初的Transformer架构下,编码器和解码器都有6个相同的层,在这6层中的每一层,编码器有两个子层:一个多头注意层,和一个简单的前馈网络,每个子层都有一个残差连接和一个层归一化。

编码器的输出大小为512,解码器增加了第三个子层,即在编码器输出上的另一个多头注意层。此外,解码器中的另一个多头层被mask掉,以防止对后续位置应用注意力,造成信息泄露。

注意力机制

从上面的描述中可以看出,模型结构中唯一「奇特」的元素是多头的注意力,也正是该模型的全部力量所在。

注意力函数是query和一组key-value pairs到输出之间的映射,输出的计算为数值的加权和,其中分配给每个数值的权重是由query与相应的key的compatibility函数计算的。

Transformer使用多头注意力(multi-head attention),即对一组注意力函数的并行计算,也称为缩放点积注意力。

与递归和卷积网络相比,注意力层有几个优势,比较重要的是其较低的计算复杂性和较高的连接性,对学习序列中的长期依赖关系特别有用。

Transformer可以做什么?为什么流行起来了?

最初的Transformer是为语言翻译而设计的,主要是从英语翻译到德语,但是初版论文的实验结果已经表明,该架构可以很好地推广到其他语言任务。

这一特殊的趋势很快就被研究界注意到了。 在接下来的几个月里,任何与语言相关的ML任务的排行榜都完全被某个版本的Transformer架构所占据,比如问答任务Squad很快就被各种Transformer模型屠榜了。 Transofrmer能够如此迅速地占领大多数NLP排行榜的关键原因之一是:它们能够快速适应其他任务,也就是迁移学习;预先训练好的Transformer模型可以非常容易和迅速地适应它们没有被训练过的任务,相比其他模型有巨大的优势。

作为一个ML从业者,你不再需要在一个巨大的数据集上从头训练一个大型模型,只需要在手头任务上重新使用预训练过的模型,也许只是用一个小得多的数据集对其稍作调整。

用来使预训练的模型适应不同任务的具体技术是所谓的微调(fine-tuning)。事实证明,Transformer适应其他任务的能力是如此之强,虽然它们最初是为语言相关的任务而开发的,但它们很快就对其他任务有用了,从视觉或音频和音乐应用一直到下棋或做数学。

99科技网:http://www.99it.com.cn

相关推荐
折扣店遍地开花?开业的大嘴岔子折扣超市加盟品牌以低价好物拔得头筹! 折扣店遍地开花?开业的大嘴岔子折扣超市加盟品牌以低价好物拔得头筹!

超市是一个社区,乃至一个城市的重要组成部分。但超市的商业模式,在近些年

快资讯2022-11-18

腾讯云解析 Public DNS 将于 12 月 1 日全面计费,请确保以免影响服务免 腾讯云解析 Public DNS 将于 12 月 1 日全面计费,请确保以免影响服务免

原标题:国货之光!小牛电动亮相巴厘岛:成官方用车 日前,G20峰会在印度尼

快资讯2022-11-16

乔布斯穿过的拖鞋被拍卖 以21.8万美元成交 乔布斯穿过的拖鞋被拍卖 以21.8万美元成交

11 月 15 日消息, 史蒂夫・乔布斯(Steve Jobs)曾穿过的 Birkenstock 品牌拖鞋以

快资讯2022-11-15

报道称:小米汽车正在计划与国内几家汽车品牌进行合作 价格可能10万以内 报道称:小米汽车正在计划与国内几家汽车品牌进行合作 价格可能10万以内

原标题:叫板特斯拉!消息称小米与国产品牌合作推新车 10万以内? 很显然,

快资讯2022-11-13

荣获「消费者信赖十大家居品牌」,新豪轩门窗以爱筑家赢得消费者信赖 荣获「消费者信赖十大家居品牌」,新豪轩门窗以爱筑家赢得消费者信赖

消费者信赖是企业 立身之本 、 运营之基 。近日,历时52天,在网络票选及 2

快资讯2022-11-12

地板清洁赛道加速内卷,吸尘界“顶流”何以从容不迫? 地板清洁赛道加速内卷,吸尘界“顶流”何以从容不迫?

科技带来的美好生活有目共睹,尤其是潜力无限的智能化现代家居清洁工具已成

快资讯2022-11-11

钉钉打卡怎么改变位置定位? 钉钉打卡怎么改变位置定位?

以钉钉最新版本为例,钉钉打卡修改定位方法,具体为以下3个步骤: 品牌型号:华为

快资讯2022-11-11

沈阳市可以做亲子鉴定的机构地址(沈阳美康联大)沈阳做亲子鉴定费用 沈阳市可以做亲子鉴定的机构地址(沈阳美康联大)沈阳做亲子鉴定费用

沈阳市可以做亲子鉴定的机构地址(沈阳美康联大)沈阳做亲子鉴定费用 随着

快资讯2022-11-07

焕颜新方式来袭:爱缇恩mADM以韧带为基点,定点提升面部青春态 焕颜新方式来袭:爱缇恩mADM以韧带为基点,定点提升面部青春态

提及衰老这件事,现今有很多爱美人士是无法忍受自己的机体以及面部出现的相

快资讯2022-11-07

 杭州灵伴科技:以创新之力赋能中国智造 杭州灵伴科技:以创新之力赋能中国智造

近期,杭州灵伴科技自主研发的X-Craft (防爆版)分别获得基于功率拆分的防暴组件

快资讯2022-11-07