关于ChatGPT八个技术问题的猜想-张家俊(3)

2023-02-27 19:50来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

交互修正能力是智能的一种高级体现，对我们来人说稀松平常的事情却是机器的痛点。在交流过程中，被指出问题后我们会立刻意识到问题所在并及时准确地修正相关信息。对于机器而言，意识到问题、识别问题范围并更正对应信息的每一步都不是一件容易的事情。ChatGPT出现之前尚未看到过具有较强交互修正能力的通用模型。与ChatGPT交互后就会发现，无论是用户更改自己之前的说法还是指出ChatGPT的回复中存在的问题，ChatGPT都能够捕捉到修改意图，并准确识别出需要修改的部分，最后能够做出正确的修正。目前为止，没有发现任何模型相关的因素与交互修正能力直接相关，也不相信ChatGPT具有实时学习的能力，一方面是重启对话后ChatGPT可能还会犯相同错误，另一方面是基础大模型的优化学习从来都是从高频数据中总结频繁模式，一次对话无论如何也难以更新基础模型。相信更多的是基础语言大模型的一种历史信息处理技巧，不太确定的因素可能包括：（1）OpenAI人工构建的对话数据中包含一些交互修正的案例，微调后拥有了这样的能力；（2）人工反馈的强化学习使得模型输出更加符合人类偏好，从而在信息修正这类对话中表现得更加遵循人类的修正意图；（3）可能大模型达到一定规模（e.g. 60B）之后，原始训练数据中的交互修正案例就被学到了，模型交互修正的能力自然就涌现出来了。

5. ChatGPT的逻辑推理能力是如何学到的？

当我们询问ChatGPT一些逻辑推理相关的问题时，它并不是直接给出答案，而是展示出详细的逻辑推理步骤，最后给出推理结果。虽然鸡兔同笼等很多案例表明ChatGPT并没有学会推理本质，而仅仅学会了推理的表面逻辑，但是展示的推理步骤和框架基本是正确的。一个语言模型能够学习到基本的逻辑推理模式已经极大超越了预期，其推理能力溯源是非常有趣的一个问题。相关对比研究发现，当模型足够大，并且程序代码与文本数据混合训练时，程序代码的完整逻辑链就会迁移泛化到语言大模型，从而大模型就拥有了一定的推理能力。这种推理能力的习得有点神奇，但是也能理解，可能代码注释是从逻辑代码到语言大模型推理能力迁移泛化的桥梁。多语言能力应该也是类似的道理。ChatGPT的训练数据绝大部分是英文，中文数据占比极少，然而我们发现ChatGPT的中文能力虽然比不上英文，但是也非常强大。训练数据中的一些中英对照的平行数据可能就是英文能力迁移到中文能力的桥梁。

6. ChatGPT是否针对不同下游任务采用不同的解码策略？

ChatGPT有许多惊艳的表现，其中一个是它可以针对同一个问题生成多种不同的回复，显得很睿智。比如，我们不满意ChatGPT的回答，可以点击“重新生成”按钮，它立刻会生成另一种回复，若还是不满意可以继续让其重新生成。这一点在NLP领域并不神秘，对于语言模型来说是它的一个基本能力，也就是采样解码。一个文本片段的后面可能接不同的词语，语言模型会计算每个词语出现的概率，如果解码策略选择概率最大的词语输出，那么每次结果都是确定的，就无法生成多样性回复。如果按照词汇输出的概率分布进行采样，例如，“策略”的概率是0.5，“算法”的概率是0.3，然后采样解码输出“策略”的可能性就是50%，输出“算法”的可能性就是30%，从而保证了输出的多样性。因为采样过程是按照概率分布进行的，即使输出结果多样，但是每一次都是选择概率较大的结果，所以多种结果看起来都相对比较合理。对比不同类型的任务时，我们会发现ChatGPT的回复多样性针对不同下游任务差别比较大。针对“如何”、“为什么”等“How”、“Why”型任务时，重新生成的回复与之前的回复无论是表达方式还是具体内容具有较大差异，针对机器翻译、数学应用题等“What”型任务时，不同回复之间的差异非常细微，有时几乎没有变化。如果都是依据概率分布的采样解码，为何不同回复之间的差异如此之小。猜测一种理想情况可能是“What”型任务基础大模型学习到的概率分布非常尖锐（Sharp），例如学到的“策略”概率为0.8，“算法”概率为0.1，所以大多数时候采样到相同的结果，也就是前面例子中80%的可能性都会采样到“策略”；“How”、“Why”型任务基础大模型学习到的概率分布比较平滑（Smooth），例如“策略”概率为0.4，“算法”概率为0.3，所以不同时候可以采样到差异性较大的结果。如果ChatGPT能够学习到任务相关的非常理想的概率分布，那确实非常厉害，基于采样的解码策略就可以适用于所有任务。通常，关于机器翻译、数学计算、事实性问答等答案比较确定或者100%确定的任务，一般采用基于贪婪解码，也就是每次输出概率最高的词语。如果希望输出相同语义的多样性输出，大多采用基于柱搜索的解码方法，但较少采用基于采样的解码策略。从与ChatGPT的交互看，所有任务它似乎都采用了基于采样的解码方法，真是暴力美学。

99科技网：http://www.99it.com.cn

共5页:

相关推荐