主页 > 快资讯 > 正文

MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流(3)

2022-08-30 17:45来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

当MoE进入机器翻译,防止过拟合成为重点

模型的优化是研究者面临的第二个问题。在架构上,研究者采用了典型的Transformer架构,但是用了稀疏方法(专家模块),在不增加模型需要激活的参数情况下扩大其规模。然而,MoE模型面临的一个主要问题是过拟合。需要研究出新的方法来构建MoE模型。 NLLB的架构是由Transformer组成的。首先来看基础的Transformer层,其中包含正则化层、多头注意力层和前向网络(FFN),而这个层可以重复很多次(N),比如6个这种层的堆叠,甚至是24或者更多。对于MoE而言,其将单个的FFN替换为多个专家模块,如FFN_1到FFN_e。此外,FFN之前有MoE Gating模块,来决定应该由哪些FFN来进行计算。Gating一般来决定前K(Top-K)个专家模块进行计算。 由于MoE容易在翻译低资源语言时出现过拟合,因此研究者需要采用一些方法。例如,在英语向法语和英语向刚果语的翻译过程中可以看到,通常情况下,研究者会在其中加入Dropout层,但和密集模型进行对比可以发现,即使是加入了Dropout层的情况下,模型依然出现过拟合的情况。在这里,研究者采用了名为EOM(Experts Output Masking)的方法,代替了Dropout简单地去掉激活的方法。 EOM的方法主要是对不同的专家输出进行遮盖。如下图所示,红绿蓝三色代表不同的Token,在路由过程中由不同的专家模块进行处理。在经过专家处理后,EoM会对部分专家的输出进行随机的遮盖。最后的输出是多个专家的加权和。 EOM能够提升模型的鲁棒性。考虑到MoE模块中带有残差连接层,所以当遮盖了一些专家后,模型不会非常地依赖混合专家模块,而是能够从残差连接中得到学习。此外,对于一些专家进行遮盖,能够避免让模型总是依赖于某一个专家,避免输出结果和某个专家特别绑定。 总结NLLB的技术,在数据层面,研究者训练了LASER-3模型,用于编码和学习不同语言的表示。同时他们训练了一个语言辨别模型,并探索了过滤、清洗等手段。在建模层面,NLLB模型整体上使用了MoE,但研究者也探索了教师学习、自监督学习等方法。 在共同努力合作的情况下,团队最终研发了NLLB-200模型。研究者还公开了200+种语言的验证数据集(FLORES-200)。此外,研究者还公开了有害言论列表,帮助用户来清除这些言论。

NLLB性能对比

99科技网:http://www.99it.com.cn

相关推荐
针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习 针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

本文介绍了神经科学和机器学习的进一步发展。

快资讯2022-08-30

百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限 百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限

在王井东看来,百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中,

快资讯2022-08-28

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

本文介绍了深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多

快资讯2022-08-28

中科院上海分院——科学家“逆行”守护实验室 中科院上海分院——科学家“逆行”守护实验室

面对疫情挑战,中科院上海分院许多科技工作者背上行囊,住进实验室,既有年

快资讯2022-08-13

科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物 科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物

《通讯·生物学》杂志12日发表一项太空生物学实验,科学家研究了植物在月球

快资讯2022-08-10

科学家构建高质量水稻泛基因组 科学家构建高质量水稻泛基因组

近日,中国农业科学院作物科学研究所水稻分子设计技术与应用创新团队和上海

快资讯2022-08-02

7000字解读苹果最新业绩背后的“内忧外患” 7000字解读苹果最新业绩背后的“内忧外患”

划重点 ① 苹果第三财季业绩表现究竟如何? 营收创疫情来最慢增速表现糟糕,

快资讯2022-08-01

谷歌高管解读财报:现在是优化重点业务的最佳时机 谷歌高管解读财报:现在是优化重点业务的最佳时机

北京时间 7 月 27 日消息,Alphabet(谷歌母公司)今天发布了该公司截至 6 月 3

快资讯2022-07-27

微软高管解读财报:持续提升数字科技能力减少宏观环境影响 微软高管解读财报:持续提升数字科技能力减少宏观环境影响

北京时间 7 月 27 日早间消息,微软今天发布了该公司的 2022 财年第四财季及全

快资讯2022-07-27

科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展 科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展

新华社北京6月8日电(记者张泉)马约拉纳零能模是一类存在于固体材料中的准

快资讯2022-07-26