主页 > 快资讯 > 正文

LeCun力推！以一己之力发布史上最全的Transformer分类和索引，36页PDF含60个模型(2)

2023-02-23 11:53来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

对编码器和解码器进行联合训练以最小化条件对数似然。训练完成后，编码器/解码器就可以根据给定输入序列的生成一个输出，或者可以给一对输入/输出序列打分。

在最初的Transformer架构下，编码器和解码器都有6个相同的层，在这6层中的每一层，编码器有两个子层：一个多头注意层，和一个简单的前馈网络，每个子层都有一个残差连接和一个层归一化。

编码器的输出大小为512，解码器增加了第三个子层，即在编码器输出上的另一个多头注意层。此外，解码器中的另一个多头层被mask掉，以防止对后续位置应用注意力，造成信息泄露。

注意力机制

从上面的描述中可以看出，模型结构中唯一「奇特」的元素是多头的注意力，也正是该模型的全部力量所在。

注意力函数是query和一组key-value pairs到输出之间的映射，输出的计算为数值的加权和，其中分配给每个数值的权重是由query与相应的key的compatibility函数计算的。

Transformer使用多头注意力（multi-head attention），即对一组注意力函数的并行计算，也称为缩放点积注意力。

与递归和卷积网络相比，注意力层有几个优势，比较重要的是其较低的计算复杂性和较高的连接性，对学习序列中的长期依赖关系特别有用。

Transformer可以做什么？为什么流行起来了？

最初的Transformer是为语言翻译而设计的，主要是从英语翻译到德语，但是初版论文的实验结果已经表明，该架构可以很好地推广到其他语言任务。

这一特殊的趋势很快就被研究界注意到了。在接下来的几个月里，任何与语言相关的ML任务的排行榜都完全被某个版本的Transformer架构所占据，比如问答任务Squad很快就被各种Transformer模型屠榜了。 Transofrmer能够如此迅速地占领大多数NLP排行榜的关键原因之一是：它们能够快速适应其他任务，也就是迁移学习；预先训练好的Transformer模型可以非常容易和迅速地适应它们没有被训练过的任务，相比其他模型有巨大的优势。

作为一个ML从业者，你不再需要在一个巨大的数据集上从头训练一个大型模型，只需要在手头任务上重新使用预训练过的模型，也许只是用一个小得多的数据集对其稍作调整。

用来使预训练的模型适应不同任务的具体技术是所谓的微调（fine-tuning）。事实证明，Transformer适应其他任务的能力是如此之强，虽然它们最初是为语言相关的任务而开发的，但它们很快就对其他任务有用了，从视觉或音频和音乐应用一直到下棋或做数学。

99科技网：http://www.99it.com.cn

共3页:

2

相关推荐

折扣店遍地开花？开业的大嘴岔子折扣超市加盟品牌以低价好物拔得头筹！

折扣店遍地开花？开业的大嘴岔子折扣超市加盟品牌以低价好物拔得头筹！

超市是一个社区，乃至一个城市的重要组成部分。但超市的商业模式，在近些年

快资讯2022-11-18

腾讯云解析 Public DNS 将于 12 月 1 日全面计费，请确保以免影响服务免

腾讯云解析 Public DNS 将于 12 月 1 日全面计费，请确保以免影响服务免

原标题：国货之光！小牛电动亮相巴厘岛：成官方用车日前，G20峰会在印度尼

快资讯2022-11-16

乔布斯穿过的拖鞋被拍卖以21.8万美元成交

乔布斯穿过的拖鞋被拍卖以21.8万美元成交

11 月 15 日消息，史蒂夫・乔布斯（Steve Jobs）曾穿过的 Birkenstock 品牌拖鞋以

快资讯2022-11-15

报道称：小米汽车正在计划与国内几家汽车品牌进行合作价格可能10万以内

报道称：小米汽车正在计划与国内几家汽车品牌进行合作价格可能10万以内

原标题：叫板特斯拉！消息称小米与国产品牌合作推新车 10万以内？很显然，

快资讯2022-11-13

荣获「消费者信赖十大家居品牌」，新豪轩门窗以爱筑家赢得消费者信赖

荣获「消费者信赖十大家居品牌」，新豪轩门窗以爱筑家赢得消费者信赖

消费者信赖是企业立身之本、运营之基。近日，历时52天，在网络票选及 2

快资讯2022-11-12

地板清洁赛道加速内卷，吸尘界“顶流”何以从容不迫？

地板清洁赛道加速内卷，吸尘界“顶流”何以从容不迫？

科技带来的美好生活有目共睹，尤其是潜力无限的智能化现代家居清洁工具已成

快资讯2022-11-11

钉钉打卡怎么改变位置定位？

钉钉打卡怎么改变位置定位？

以钉钉最新版本为例,钉钉打卡修改定位方法,具体为以下3个步骤: 品牌型号:华为

快资讯2022-11-11

沈阳市可以做亲子鉴定的机构地址（沈阳美康联大）沈阳做亲子鉴定费用

沈阳市可以做亲子鉴定的机构地址（沈阳美康联大）沈阳做亲子鉴定费用

沈阳市可以做亲子鉴定的机构地址（沈阳美康联大）沈阳做亲子鉴定费用随着

快资讯2022-11-07

焕颜新方式来袭：爱缇恩mADM以韧带为基点，定点提升面部青春态

焕颜新方式来袭：爱缇恩mADM以韧带为基点，定点提升面部青春态

提及衰老这件事，现今有很多爱美人士是无法忍受自己的机体以及面部出现的相

快资讯2022-11-07

杭州灵伴科技：以创新之力赋能中国智造

杭州灵伴科技：以创新之力赋能中国智造

近期,杭州灵伴科技自主研发的X-Craft (防爆版)分别获得基于功率拆分的防暴组件

快资讯2022-11-07

头条资讯

推荐资讯

最近更新

99科技网—新锐科技媒体！: 关于我们 | 联系我们 | 商务合作; 寻求报道 | 免责声明 | 网站地图; 申请友链 | 加入我们 | 意见反馈

投诉建议: 通过E-mail将您的想法和建议发给我们; 稿件投诉：; 合作网站：99科技网

联系我们: 服务热线：; 官方客服QQ：; 微信公众号：

Copyright © 2009-2022 99科技网—提供有价值的科技领域报道和服务