主页 > 快资讯 > 正文

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的(5)

2023-02-23 12:03来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

我尝试解释我们应该在哪些任务和应用上使用 GPT-3,而哪些则不该使用。为了展示 GPT-3 是否适合某个特定任务,我主要比较了带有提示(prompting)的 GPT-3 和经过微调的更小的模型,这些小模型有时还加入了其他特殊的设计。鉴于最近出现的更小的而且可以微调的 FLAN-T5 模型的良好性能,这一问题更加重要。

在理想情形下,如果微调 GPT-3 的负担是能够承担的,它可能带来更进一步的提升。然而,在一些任务上通过微调 PaLM-540B 带来的提升是如此有限,让人们怀疑在一些任务中微调 GPT-3 是否是值得的。从科学的角度来看,更公平的比较应在微调 GPT-3 和提示 GPT-3 之间进行。然而,要使用 GPT-3,人们可能更关心将提示 GPT-3 和微调一个更小的模型去进行对比。

注意到,我主要关心的是将完成任务的精确度作为度量,但仍然存在很多其它重要的维度,例如:有害性(toxicity)、公平性等,它们也应该在决定是否使用 GPT-3 时被纳入考虑,正如 HELM 的文章中所呈现的。下图展示了一个粗略的决策流程,希望它能够作为一个有用的实践指南,无论对于已有任务还是一个全新的任务。

注 1:由于在对话场景下的良好对齐,ChatGPT 作为一个聊天机器人表现优异。但我们通常使用 GPT-3、InstructGPT (GPT-3.5)、以及 Codex 这些 ChatGPT 背后的模型作为在更多任务和使用场景下的通用模型。

注 2:这一节中的结论是基于一些对模型当前版本的发现得到的,这可能不适用于未来的更强的模型。因为,使用更多与目标数据集接近的预训练数据、学术数据集指令调整(例如提示一个 FLAN-PaLM 可能会带来更强的性能,它仍未公开)或者通过 RLHF 以使得模型对目标任务的更好对齐,这些都可能使得模型在目标任务中表现更好,即使有时这会牺牲在其他场景下的能力(例如,InstructGPT的“对齐税/Alignment tax”)。

在这种情况下,很难判断 GPT 是进行泛化和跨任务泛化,还是仅仅在预训练时就已经记住了一些测试样例,或者说见过那些在预训练时所谓“没有见过”的任务。然而,记忆在实践中是否真的是一个严重的问题,这仍然值得怀疑。因为用户与研究人员不同,如果他们发现 GPT 已经可以在他们的测试数据上表现良好,他们可能不会关心 GPT 在预训练期间是否看到了相同或相似的数据。

不论如何,为了最大化这一节在当前的实用价值,我尽最大努力,试图比较微调公共的更小型的模型(T5、FALN-T5、一些特殊设计的微调 SOTA 模型等)和最近的 GPT-3 (GPT-3.5、InstructGPT)、PaLM(或 FLAN-PaLM)的最佳性能,如果这些模型的测评数据够获得的话。

99科技网:http://www.99it.com.cn

相关推荐
大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言? 大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言?

时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮

快资讯2023-02-23

所有2H23新款iPhone均舍弃Lighting并改为USB-C 所有2H23新款iPhone均舍弃Lighting并改为USB-C

原标题:郭明錤:2023财年下半年,苹果所有新iPhone均改为USB-C接口 郭明錤:所

快资讯2022-11-17

真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA 真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA

真正的皇室寝具,凡尔赛女王公开展示的顶奢品牌DOLOMIA 对于奢华级睡眠品牌

快资讯2022-11-10

创新突破,广州研创为什么能完美替代国外手性色谱 创新突破,广州研创为什么能完美替代国外手性色谱

新冠肺炎疫情突如其来肆虐全球,国家间合作共赢的可能性与利益冲突的现实性

快资讯2022-11-05

顾均辉说定位:年轻人为什么喜欢用“小熊电器”? 顾均辉说定位:年轻人为什么喜欢用“小熊电器”?

大多数人认识小熊电器,都是从一个养生壶开始的。养生壶早已不再是老年人的

快资讯2022-10-19

OPPO A57口碑为什么这么好?离不开这两个配置 OPPO A57口碑为什么这么好?离不开这两个配置

目前国内的中端机性能跑分都是非常不错的,基本上都达到了30万分以上。基本

快资讯2022-09-27

为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案! 为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案!

在时尚界,提及魅族 PANDAER , 很多人都会耳熟能详,并且其凭借自身的不俗实

快资讯2022-09-23

OPPO A97为什么能得到98%好评率 颜值+品控过硬 OPPO A97为什么能得到98%好评率 颜值+品控过硬

随着用户对手机品质和综合表现有了更多的了解,大众对中端机的要求也越来越

快资讯2022-09-21

引领数据领域AI工程化落地,为什么会是云测数据? 引领数据领域AI工程化落地,为什么会是云测数据?

毫无疑问,在AI加速实现场景落地的今天,“AI工程化”已经成为行业普遍的议

快资讯2022-09-19

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15