为什么所有公开的对 GPT-3 的复现都失败了？复现和使用GPT-3/ChatGPT，你所应该知道的(5)

2023-02-23 12:03来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

我尝试解释我们应该在哪些任务和应用上使用 GPT-3，而哪些则不该使用。为了展示 GPT-3 是否适合某个特定任务，我主要比较了带有提示（prompting）的 GPT-3 和经过微调的更小的模型，这些小模型有时还加入了其他特殊的设计。鉴于最近出现的更小的而且可以微调的 FLAN-T5 模型的良好性能，这一问题更加重要。

在理想情形下，如果微调 GPT-3 的负担是能够承担的，它可能带来更进一步的提升。然而，在一些任务上通过微调 PaLM-540B 带来的提升是如此有限，让人们怀疑在一些任务中微调 GPT-3 是否是值得的。从科学的角度来看，更公平的比较应在微调 GPT-3 和提示 GPT-3 之间进行。然而，要使用 GPT-3，人们可能更关心将提示 GPT-3 和微调一个更小的模型去进行对比。

注意到，我主要关心的是将完成任务的精确度作为度量，但仍然存在很多其它重要的维度，例如：有害性（toxicity）、公平性等，它们也应该在决定是否使用 GPT-3 时被纳入考虑，正如 HELM 的文章中所呈现的。下图展示了一个粗略的决策流程，希望它能够作为一个有用的实践指南，无论对于已有任务还是一个全新的任务。

注 1：由于在对话场景下的良好对齐，ChatGPT 作为一个聊天机器人表现优异。但我们通常使用 GPT-3、InstructGPT (GPT-3.5)、以及 Codex 这些 ChatGPT 背后的模型作为在更多任务和使用场景下的通用模型。

注 2：这一节中的结论是基于一些对模型当前版本的发现得到的，这可能不适用于未来的更强的模型。因为，使用更多与目标数据集接近的预训练数据、学术数据集指令调整（例如提示一个 FLAN-PaLM 可能会带来更强的性能，它仍未公开）或者通过 RLHF 以使得模型对目标任务的更好对齐，这些都可能使得模型在目标任务中表现更好，即使有时这会牺牲在其他场景下的能力（例如，InstructGPT的“对齐税/Alignment tax”）。

在这种情况下，很难判断 GPT 是进行泛化和跨任务泛化，还是仅仅在预训练时就已经记住了一些测试样例，或者说见过那些在预训练时所谓“没有见过”的任务。然而，记忆在实践中是否真的是一个严重的问题，这仍然值得怀疑。因为用户与研究人员不同，如果他们发现 GPT 已经可以在他们的测试数据上表现良好，他们可能不会关心 GPT 在预训练期间是否看到了相同或相似的数据。

不论如何，为了最大化这一节在当前的实用价值，我尽最大努力，试图比较微调公共的更小型的模型（T5、FALN-T5、一些特殊设计的微调 SOTA 模型等）和最近的 GPT-3 (GPT-3.5、InstructGPT)、PaLM（或 FLAN-PaLM）的最佳性能，如果这些模型的测评数据够获得的话。

99科技网：http://www.99it.com.cn

共11页: