主页 > 快资讯 > 正文

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的(7)

2023-02-23 12:03来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

需要处理多种任务的能力 ,而非关注特定任务上的卓越表现。聊天机器人就是这样一种场景,其中,用户期待它能够正确地响应各种各样的任务。这可能就是为什么 ChatGPT 是 GPT-3 最成功的使用场景之一。

那些检索不可行的知识密集型任务 。存储在 LLM 中的知识可以显著地提高在知识密集型任务的性能,例如闭卷问答和 MMLU(一个基准数据集,包括来自于 STEM、人文、社科等 57 个学科的选择题,它用于测试 LLM 的世界知识和问题解答的能力)。然而,如果预先检索的步骤可以被加入来做检索增强的生成,一个微调的更小的模型(例如 Atlas 模型)甚至可以有更好的性能(在闭卷的 NaturalQuestions 和 TrivialQA 数据集上,Atlas 比 PaLM 和最新的 InstructGPT 都要更好)。

检索或者传统的搜索同样是将 GPT-3 或 ChatGPT 整合到搜索引擎中的一个必要的步骤,这可以提升生成的准确性,并且提供更多的参考链接以增强说服力。但我们应该承认,在某些情况下,检索是不允许或者不容易的,比如参加 USMLE (美国医学执照考试),谷歌已经证明基于 FLAN-PaLM 的模型可以在其中做得很好。 同样的,在 MMLU 基准集中,PaLM-540B 有着比其他微调模型更好的性能,甚至后者结合了检索,尽管最新版本的 InstructGPT 还差于这些带有检索的微调 SOTA。也请注意,指令调整一个较小的模型也可以实现与更大规模的 LLM 模型接近的效果,这已经在 FLAN-T5 中展现。

一些困难的任务,其中需要LLM 的涌现能力,比如带有 CoT 的推理和 BIG-Bench 中的复杂任务(包括逻辑推理、翻译、问答、数学任务等)。举个例子,PaLM 已经展示,在 7 个包括数学和常识推理的多步推理任务上,8-样例的 CoT 比微调 SOTA 在其中 4 个任务上更好,在其它 3 个任务上则基本持平。

这样的成功表现要同时归因于更大规模的模型和 CoT。PaLM 还显示了在 BIG-Bench 任务上从 8B 到 62B 再到 540B 模型的不连续的表现提升,这超出了规模定律(scailing law),被称为 LLMs 的涌现能力。另外,带有 5 个 Prompt 的 PaLM-540B 在 Big-Bench 的 58 项常见任务中的 44 项上优于之前的(少样本)SOTA。PaLM-540B 在 Big-Bench 的总体表现也优于人类的平均表现。

一些需要模仿人类的场景,或者是其目标是制作性能达到人类水平的通用人工智能。同样的,ChatGPT 是其中的一个案例,ChatGPT 使自己更像是一个人,从而取得了现象级的成功。这也被阐释为 GPT-3 的初始设计目标之一:“人类不需要大规模监督数据集来学习大多数语言任务。最多只需要几个例子,人类就可以将各种任务和技巧无缝地混合在一起或者在它们之间切换。因此传统的微调模型导致了与人类的不公平比较,尽管他们声称在许多基准数据集中有着人类水平的性能。”

99科技网:http://www.99it.com.cn

相关推荐
大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言? 大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言?

时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮

快资讯2023-02-23

所有2H23新款iPhone均舍弃Lighting并改为USB-C 所有2H23新款iPhone均舍弃Lighting并改为USB-C

原标题:郭明錤:2023财年下半年,苹果所有新iPhone均改为USB-C接口 郭明錤:所

快资讯2022-11-17

真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA 真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA

真正的皇室寝具,凡尔赛女王公开展示的顶奢品牌DOLOMIA 对于奢华级睡眠品牌

快资讯2022-11-10

创新突破,广州研创为什么能完美替代国外手性色谱 创新突破,广州研创为什么能完美替代国外手性色谱

新冠肺炎疫情突如其来肆虐全球,国家间合作共赢的可能性与利益冲突的现实性

快资讯2022-11-05

顾均辉说定位:年轻人为什么喜欢用“小熊电器”? 顾均辉说定位:年轻人为什么喜欢用“小熊电器”?

大多数人认识小熊电器,都是从一个养生壶开始的。养生壶早已不再是老年人的

快资讯2022-10-19

OPPO A57口碑为什么这么好?离不开这两个配置 OPPO A57口碑为什么这么好?离不开这两个配置

目前国内的中端机性能跑分都是非常不错的,基本上都达到了30万分以上。基本

快资讯2022-09-27

为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案! 为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案!

在时尚界,提及魅族 PANDAER , 很多人都会耳熟能详,并且其凭借自身的不俗实

快资讯2022-09-23

OPPO A97为什么能得到98%好评率 颜值+品控过硬 OPPO A97为什么能得到98%好评率 颜值+品控过硬

随着用户对手机品质和综合表现有了更多的了解,大众对中端机的要求也越来越

快资讯2022-09-21

引领数据领域AI工程化落地,为什么会是云测数据? 引领数据领域AI工程化落地,为什么会是云测数据?

毫无疑问,在AI加速实现场景落地的今天,“AI工程化”已经成为行业普遍的议

快资讯2022-09-19

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15