主页 > 快资讯 > 正文

Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM(2)

2022-08-28 10:29来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

再突破! 曹原新年首篇Nature

Atlas遵循文本到文本的框架,也就是说,系统会得到一个文本查询作为输入,并生成一个文本输出。 例如,在回答问题的情况下,查询与问题相对应,模型需要生成答案。在分类任务中,查询对应于文本输入,模型生成词汇化的类别标签,即标签所对应的词。 Atlas基于两个子模型:检索器和语言模型。 当执行一项任务时,模型首先用检索器从大型文本语料库中检索出前k个相关文档。然后,这些文档和查询一起被送入语言模型,再由语言模型生成输出。检索器和语言模型都是基于预训练的Transformer网络。 检索器模块基于Contriever,一种基于连续密集嵌入的信息检索技术。Contriever使用一个双编码器结构,其中查询和文档由一个变换器编码器独立嵌入。在最后一层的输出上应用平均池化,以获得每个查询或文档的一个向量表示。然后,通过计算查询和每个文档的相应嵌入之间的点积,得到查询和每个文档之间的相似度分数。Contriever模型使用MoCo对比损失进行预训练,并且只使用无监督的数据。 密集检索器的一个优点是,查询和文档编码器都可以在没有文档注释的情况下,利用如梯度下降和蒸馏等技术进行训练。 语言模型依靠序列到序列模型的Fusion-in-Decoder modification,并在编码器中独立处理每个文档。然后,将对应于不同文档的编码器的输出连接起来,并在解码器中对这一单一序列进行交叉注意。在语言模型中处理检索到的文档的另一种方法是将查询和所有的文档连接起来,并将这个长序列作为模型的输入。

再突破! 曹原新年首篇Nature

具体来说,作者使用Perplexity Distillation目标函数,以及掩码语言建模作为前置任务。并使用维基百科和Common Crawl的混合数据对这些模型进行预训练,用于训练数据和索引的内容。 作者检索了20个文档,每2500步更新一次索引,并对前100个文档进行重新排名。并使用AdamW对模型进行10,000次迭代的预训练,批大小为128。

99科技网:http://www.99it.com.cn

相关推荐
Gartner 发布 2022年的 Hype Cycle Gartner 发布 2022年的 Hype Cycle

云可持续性(Cloud sustainability)是指利用云服务在经济、环境和社会系统中实现

快资讯2022-08-28

中国信通院发布“2022人工智能十大关键词” 中国信通院发布“2022人工智能十大关键词”

大模型技术创新和工程落地齐头并进,掀起行业大模型落地热潮。

快资讯2022-08-28

重磅发布|从“造物节”看平台驱动下的敏捷创新 重磅发布|从“造物节”看平台驱动下的敏捷创新

数字经济时代,随着各类数字平台壮大,越来越多的小微企业飞速成长、高频创

快资讯2022-08-27

全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600 全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600

超大规模预训练模型混战之后,NLP模型该走向何方?

快资讯2022-08-25

中国信通院发布“2022人工智能十大关键词” 中国信通院发布“2022人工智能十大关键词”

大模型技术创新和工程落地齐头并进,掀起行业大模型落地热潮。

快资讯2022-08-24

翼龙贷 翼龙贷

翼龙贷官方发布统一兑付登记网址【 www.qtcc07.com 】,或者扫描下方二维码联系

快资讯2022-08-16

熠鼎金融 熠鼎金融

熠鼎金融官方发布统一兑付登记网址【 www.qtcc07.com 】,或者扫描下方二维码联

快资讯2022-08-16

益家理财 益家理财

益家理财官方发布统一兑付登记网址【 www.qtcc07.com 】,或者扫描下方二维码联

快资讯2022-08-16

易小钱 易小钱

易小钱官方发布统一兑付登记网址【 www.qtcc07.com 】,或者扫描下方二维码联系

快资讯2022-08-16

易投资 易投资

易投资官方发布统一兑付登记网址【 www.qtcc07.com 】,或者扫描下方二维码联系

快资讯2022-08-16