为什么所有公开的对 GPT-3 的复现都失败了？复现和使用GPT-3/ChatGPT，你所应该知道的(6)

2023-02-23 12:03来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

一般来说，有以下这些情况更适合使用提示 GPT-3。令人惊讶的是，如果我们回看 GPT-3 论文的介绍部分，在那里很多初始设计时的目标涵盖了这些任务。这意味着那些当初宏伟的目标已经被部分实现了。

创造性和复杂的任务：包括代码（代码补全、自然语言指令生成代码、代码翻译、bug 修复）、文本摘要、翻译、创造性写作（例如写故事、文章、邮件、报告，以及写作的改进等）。正如原始的 GPT-3 文献中所示，GPT-3 被设计用于那些困难和“不可能标注”的任务。在一定程度上，对于这些任务，先前那种经过微调的模型不可能应用于真实世界的应用；而 GPT-3 使它们成为可能。举个例子，最近的文章显示，过去的人类标注的文本摘要已经被 LLM 生成的摘要所超越。

在某些需要从低、中资源语言翻译到英语的机器翻译任务中，通过提示 PaLM-540B，它甚至能够超越微调模型。在 BLOOM-176B 中也观察到了类似的趋势。这是因为英语数据通常在预训练语料库中占了很大比例，因此 LLM 擅长于生成英语语句。注意到，为了在代码任务中获得良好性能，尽管 Codex 和 PaLM 已经在整体上具有比之前模型更好的性能，我们仍然需允许 LLM 多次（k 次）采样，以通过测试样例（使用 pass@k 作为度量）。

只有少数标注或者没有标注数据的任务。正如原始的 GPT-3 文献所说，GPT-3 是为了那些“昂贵标注”的任务设计的。在这种情况下，用极少量标注数据微调一个更小的模型通常不可能达到 GPT-3 在零样本（zero-shot）、单样本（ont-shot）或少样本（few-shot）的情况下的表现。

分布外（Out-of-distribution, OOD）泛化。给定一些训练数据，传统的微调可能会过拟合训练集并且有较差的分布外泛化能力；而少样本的上下文学习（in-context learning）能够有更好的分布外泛化性。例如，带有提示的 PaLM 能够在对抗自然语言推断任务（Adversarial Natural Language Inference，ANLI）上超越经过微调的 SOTA 模型，而它在正常的语言推断任务上可能仍然劣于微调的 SOTA。

另一个例子是提示 LLM 比微调模型显示出更好的组合泛化能力。更好的分布外泛化性可能是因为在上下文学习期间不需要更新参数，避免了过拟合；或者因为那些过去的分布外样例对于 LLM 而言是分布内的。这种使用场景被阐释为 GPT-3 的初始设计目标之一：“微调模型在特定任务的数据集上的性能可以达到所谓的人类水平，实际上可能夸大了在真实世界中该任务上的性能，这是因为模型只是学到了训练集中存在的虚假的相关性，以及模型过度拟合了这个训练集狭窄的分布。”

99科技网：http://www.99it.com.cn

共11页: