主页 > 快资讯 > 正文

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的

2023-02-23 12:03来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

文|杨靖锋

译|杨昊桐,王骁 修订 源|机器之心

英文原版作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。

感谢靳弘业对第一版稿件的建议,感谢陈三星,符尧的讨论和建议。

英文原版:

https://jingfengyang.github.io/gpt

推特原文:

https://twitter.com/JingfengY/status/1625003999387881472

这一推文写于 2023 年 2 月 12 日,其中均为个人意见,仅供参考。

为什么所有公开的对 GPT-3 的复现都失败了?我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT?

这篇推文将包括,我在仔细重新检查了一系列文章的细节之后给出的总结,以及对上面两个问题我个人的思考。这些文章包括且不限于:GPT-3, PaLM, BLOOM, OPT, FLAN-T5/PaLM, HELM 等。如果您有更可靠的参考资料或者更实际的经验,欢迎指正。

对于那些想要复现一个属于自己的 GPT-3 或 ChatGPT 的人而言,第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的(下文提到 GPT-3,主要是指 GPT-3.5 或 InstructGPT 的最新版本,除了一些指向 GPT-3 原文的情况)。

1 为什么所有公开的对GPT-3的复现都失败了?

这里,我称之为“失败”,是指训练得出模型有接近 GPT-3 或者更大的参数量,但仍无法与 GPT-3 原始文献中报告的性能所匹配。在这一标准下,GPT-3 和 PaLM 是“成功”的,但这两个模型都不是公开的。而所有的公开模型(例如:OPT-175B 和 BLOOM-176B)都在一定程度上“失败”了。但是我们仍然可以从这些“失败”中吸取一些教训。

我们需要注意的是,假如能够多次尝试各种不同的训练设置,开源社区可能最终可以复现 GPT-3。但截至目前,训练另一个版本的 OPT-175B 的开销仍然太过高昂——对于如此大规模的模型,一次训练就将需要在约 1000 个 80G A100 GPU 上花费至少 2 个月的时间(数据来自于 OPT 的原始文献)。

尽管一些文章(例如 OPT-175B 和 GLM-130B)声称它们在一些任务上能够匹配甚至超过原始的 GPT-3 的表现,在更多 GPT-3 已经测试过的任务上,这种声明仍然是存疑的。同时,根据大多数使用者在更多样的任务上的经验,以及 HELM 的评估来看,最近的 OpenAI GPT-3 的 API 表现也仍然比这些开源模型更好。

尽管它背后的模型可能使用了指令微调(instruction tuning, 正如 InstructGPT 那样),类似的使用了指令微调的 OPT 版本(OPT-IML)和 BLOOM 版本(BLOOMZ)也仍然远比 InstructGPT 和 FLAN-PaLM(PaLM 的指令微调版本)要差得多。

99科技网:http://www.99it.com.cn

相关推荐
大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言? 大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言?

时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮

快资讯2023-02-23

所有2H23新款iPhone均舍弃Lighting并改为USB-C 所有2H23新款iPhone均舍弃Lighting并改为USB-C

原标题:郭明錤:2023财年下半年,苹果所有新iPhone均改为USB-C接口 郭明錤:所

快资讯2022-11-17

真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA 真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA

真正的皇室寝具,凡尔赛女王公开展示的顶奢品牌DOLOMIA 对于奢华级睡眠品牌

快资讯2022-11-10

创新突破,广州研创为什么能完美替代国外手性色谱 创新突破,广州研创为什么能完美替代国外手性色谱

新冠肺炎疫情突如其来肆虐全球,国家间合作共赢的可能性与利益冲突的现实性

快资讯2022-11-05

顾均辉说定位:年轻人为什么喜欢用“小熊电器”? 顾均辉说定位:年轻人为什么喜欢用“小熊电器”?

大多数人认识小熊电器,都是从一个养生壶开始的。养生壶早已不再是老年人的

快资讯2022-10-19

OPPO A57口碑为什么这么好?离不开这两个配置 OPPO A57口碑为什么这么好?离不开这两个配置

目前国内的中端机性能跑分都是非常不错的,基本上都达到了30万分以上。基本

快资讯2022-09-27

为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案! 为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案!

在时尚界,提及魅族 PANDAER , 很多人都会耳熟能详,并且其凭借自身的不俗实

快资讯2022-09-23

OPPO A97为什么能得到98%好评率 颜值+品控过硬 OPPO A97为什么能得到98%好评率 颜值+品控过硬

随着用户对手机品质和综合表现有了更多的了解,大众对中端机的要求也越来越

快资讯2022-09-21

引领数据领域AI工程化落地,为什么会是云测数据? 引领数据领域AI工程化落地,为什么会是云测数据?

毫无疑问,在AI加速实现场景落地的今天,“AI工程化”已经成为行业普遍的议

快资讯2022-09-19

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15