主页 > 快资讯 > 正文

MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流

2022-08-30 17:45来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

大数据文摘授权转载自智源社区

整理:戴一鸣

编辑:李梦佳

导读: 近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上实现了任意互译。其中的亮点在于:研究者让大多数低资源语言训练数据量提升了多个数量级,相当于规模提升百倍甚至千倍;实现了200+语言翻译的平均新SOTA。 图注:NLLB团队统计的公开翻译数据(蓝色柱)和经过一系列方法后获得的训练数据(绿色柱)进行的对比。

目前,Meta已在其博客上公布了NLLB-200的最新应用:用多国语言翻译各国儿童故事。此外,利用NLLB-200实现元宇宙用户自由交流,也成为未来Meta关注的发展方向。 机器翻译一直是自然语言处理领域的重要任务。随着预训练模型的出现,机器翻译模型的性能已经得到了明显的进步。然而,当前机器翻译主要解决的是英语与其他语言的互译。有大量的语言缺乏基本的训练数据,使得构建通用机器翻译模型成为无源之水、无本之木。 怎样解决困扰通用机器翻译研究的问题?千倍翻译数据增长背后使用哪些新技术?近日,智源社区邀请NLLB-200的作者之一 , MetaAI研究科学家Maha Elbayad博士进行了详解。 作者介绍: Maha Elbayad博士是Meta AI的研究科学家,致力于研究低资源和大规模多语言机器翻译领域。在加入Meta之前,她获得了格勒诺布尔阿尔卑斯大学的应用数学和计算机科学博士学位,以及巴黎萨克雷高等师范学院和巴黎中央大学的应用数学理学硕士学位。 她的研究项目包括具有二维卷积的序列到序列模型、具有早期停止机制的计算高效Transformer解码器模型,以及具有K步等待解码机制的同声传译模型等。她共同组织了第二届自动同声传译Workshop和IWSLT 2021 & 2022同声传译共享任务。

背景

当前,机器翻译领域的面临的一项挑战是:机器翻译主要是研究英语与其他语言之间的翻译问题。例如,有法语和英语的文本,用户想从法语翻译成英语,或者从英语翻译回法语,是可以用相同模型的。但如果想从英语翻译成中文,或者其他语言,就需要训练新的模型。 机器翻译领域的“圣杯”是发展一种通用的机器翻译方法,通过一个模型来实现多种领域下两个任意语言之间的互译。据统计,目前全球有超过4000种书面语言。如果我们将其扩展到非书面语言,这个数字会上升到7000。而目前谷歌翻译能够实现大约130种语言的翻译。微软翻译到今年7月达到110种。这里需要解决的问题是,如何才能打破130种语言的数量障碍,将可翻译的语言数目增加到200种以上?我们怎样能够确保在可互译语言数量增长的同时,保证翻译的质量,并且还能考虑到建立多语言机器翻译模型所带来的伦理影响。 机器翻译领域还面临着第二个问题:如何提升无资源语言的机器翻译效果?近年来,大部分机器翻译的研究和模型的提升都集中在高资源语言上。研究者拥有的数据越多,模型就可以训练得越多,获得更准确的模型。但如果数据较少,研究者就无法获得良好的翻译模型。正所谓“富者愈富,穷者愈穷”,NLLB的研究目标是通过训练多语言翻译模型,比较来自不同资源级别的数据,并增加不同语言之间的迁移能力。这样一来,数据较为丰富的语言能够帮助哪些数据相对较少的语言来提升效果。 当然,多语言机器翻译本身是具有多面性的问题。研究者不仅需要考虑技术层面的问题,如模型的构建、训练的方法、数据清洗和过滤的方法等,还需要考虑在有了大规模多语言机器翻译模型后所带来的伦理和社会影响。在NLLB团队中有30多位成员,包括来自语言学、社会学、人工智能、数据科学等方面的多位专家,共同合作完成了这项任务。

99科技网:http://www.99it.com.cn

相关推荐
针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习 针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

本文介绍了神经科学和机器学习的进一步发展。

快资讯2022-08-30

百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限 百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限

在王井东看来,百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中,

快资讯2022-08-28

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

本文介绍了深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多

快资讯2022-08-28

中科院上海分院——科学家“逆行”守护实验室 中科院上海分院——科学家“逆行”守护实验室

面对疫情挑战,中科院上海分院许多科技工作者背上行囊,住进实验室,既有年

快资讯2022-08-13

科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物 科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物

《通讯·生物学》杂志12日发表一项太空生物学实验,科学家研究了植物在月球

快资讯2022-08-10

科学家构建高质量水稻泛基因组 科学家构建高质量水稻泛基因组

近日,中国农业科学院作物科学研究所水稻分子设计技术与应用创新团队和上海

快资讯2022-08-02

7000字解读苹果最新业绩背后的“内忧外患” 7000字解读苹果最新业绩背后的“内忧外患”

划重点 ① 苹果第三财季业绩表现究竟如何? 营收创疫情来最慢增速表现糟糕,

快资讯2022-08-01

谷歌高管解读财报:现在是优化重点业务的最佳时机 谷歌高管解读财报:现在是优化重点业务的最佳时机

北京时间 7 月 27 日消息,Alphabet(谷歌母公司)今天发布了该公司截至 6 月 3

快资讯2022-07-27

微软高管解读财报:持续提升数字科技能力减少宏观环境影响 微软高管解读财报:持续提升数字科技能力减少宏观环境影响

北京时间 7 月 27 日早间消息,微软今天发布了该公司的 2022 财年第四财季及全

快资讯2022-07-27

科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展 科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展

新华社北京6月8日电(记者张泉)马约拉纳零能模是一类存在于固体材料中的准

快资讯2022-07-26