主页 > 快资讯 > 正文

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的(8)

2023-02-23 12:03来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在一些传统的接近于语言建模的 NLP 任务上,少样本 PaLM-540B 能够大致匹配或者甚至超过微调的 SOTA,例如:一段话最后一句和最后一个单词的完型填空,以及回指(anaphora)解析。需要指出,在这种情况下,零样本的 LLM 已经足够了,单样本或少样本的示例则通常帮助不大。

另一些任务则并不需要提示(prompt)一个 GPT-3 这样规模的模型:

调用 OpenAI GPT-3 的 API 超出了预算(例如对于没有太多钱的创业公司)。

调用 OpenAI GPT-3 的 API 存在安全问题(例如数据泄露给 OpenAI,或者可能生成的有害内容)。

没有足够的工程或者硬件资源去部署一个相似大小的模型及消除推断的延迟问题。例如,在没有最先进的 80G 的 A100 或者工程资源来优化推断速度的情况下,简单地使用 Alpa 在 16 个 40G 的 A100 上部署 OPT-175B 需要 10 秒才能完成单个样例的推断,这对于大多数现实世界的在线应用程序来说是无法接受的延迟。

如果想用 GPT-3 替代一个性能良好的、高准确度的微调模型,或者想要在一些特定的单一任务和使用场景下去部署一个 NLU(Natural Language Understanding,自然语言理解)或 NLG(Natural Language Generating,自然语言生成)模型,请三思这是否值得。

对于一些传统的 NLU 任务,比如分类任务,我建议首先尝试微调 FLAN-T5-11B 模型,而不是提示 GPT-3。例如,在 SuperGLUE,一个困难的 NLU 基准数据集(包括阅读理解、文本蕴含、词义消歧、共指消解和因果推理等任务)上,所有的 PaLM-540B 的少样本提示性能都劣于微调的 T5-11B,并在其中大多数任务上有着显著的差距。如果使用原始 GPT3,其提示结果与微调 SOTA 的结果之间的差距更大。有趣的是,即使是经过微调的 PaLM 也仅比经过微调的 T5-11B 有着有限的改进,而经过微调的 PaLM 甚至比经过微调的编-解码器模型 32B MoE 模型还要差。这表明使用更合适的架构(例如编-解码器模型)微调较小的模型仍然是比使用非常大的仅解码器模型更好的解决方案,无论是微调还是提示来使用这些大模型。根据最近的一篇论文,即使对于最传统的 NLU 分类任务——情感分析,ChatGPT 仍然比经过微调的较小模型差。

一些不以现实世界数据为基础的困难任务。例如,BigBench 中仍然有许多对 LLM 来说困难的任务。具体地说,在 35% 的 BigBench 任务上,人类的平均表现仍然高于 PaLM-540B,并且在某些任务中,扩大模型规模甚至无济于事,例如导航和数学归纳。在数学归纳中,当提示中的假设不正确时(例如“2 是奇数”),PaLM 会犯很多错误。在逆规模定律竞赛 (Inverse Scaling Law Challenge) 中,也观察到了类似的趋势,例如重新定义数学符号(例如提示可能“将 π 重新定义为 462”)后再使用这个符号。在这种情况下,LLM 中的现实世界先验知识太强而无法被提示覆盖,而微调较小的模型可能可以更好地学习这些反事实知识。

99科技网:http://www.99it.com.cn

相关推荐
大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言? 大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言?

时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮

快资讯2023-02-23

所有2H23新款iPhone均舍弃Lighting并改为USB-C 所有2H23新款iPhone均舍弃Lighting并改为USB-C

原标题:郭明錤:2023财年下半年,苹果所有新iPhone均改为USB-C接口 郭明錤:所

快资讯2022-11-17

真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA 真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA

真正的皇室寝具,凡尔赛女王公开展示的顶奢品牌DOLOMIA 对于奢华级睡眠品牌

快资讯2022-11-10

创新突破,广州研创为什么能完美替代国外手性色谱 创新突破,广州研创为什么能完美替代国外手性色谱

新冠肺炎疫情突如其来肆虐全球,国家间合作共赢的可能性与利益冲突的现实性

快资讯2022-11-05

顾均辉说定位:年轻人为什么喜欢用“小熊电器”? 顾均辉说定位:年轻人为什么喜欢用“小熊电器”?

大多数人认识小熊电器,都是从一个养生壶开始的。养生壶早已不再是老年人的

快资讯2022-10-19

OPPO A57口碑为什么这么好?离不开这两个配置 OPPO A57口碑为什么这么好?离不开这两个配置

目前国内的中端机性能跑分都是非常不错的,基本上都达到了30万分以上。基本

快资讯2022-09-27

为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案! 为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案!

在时尚界,提及魅族 PANDAER , 很多人都会耳熟能详,并且其凭借自身的不俗实

快资讯2022-09-23

OPPO A97为什么能得到98%好评率 颜值+品控过硬 OPPO A97为什么能得到98%好评率 颜值+品控过硬

随着用户对手机品质和综合表现有了更多的了解,大众对中端机的要求也越来越

快资讯2022-09-21

引领数据领域AI工程化落地,为什么会是云测数据? 引领数据领域AI工程化落地,为什么会是云测数据?

毫无疑问,在AI加速实现场景落地的今天,“AI工程化”已经成为行业普遍的议

快资讯2022-09-19

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15