英国爱丁堡大学

感谢艾伦人工智能研究所彭昊，Tushar Khot 的深入讨论

2023 年 4 月 30 日开始写作，完稿于 2023 年 5 月 3 日

与 GPT-4 交互翻译为中文

英文原版

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lJMlpHRm1aVE5tT0dReE1UUTBOV05oT1dSalpqaGhNbU5oTVdNMVlqRTVPU0lzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklrTnlVbFp3WkVOMWEyRnJNblU1U0hWVVdXUjNJbjA9

最近，很多关于较小模型的研究取得了令人振奋的对话能力，这让人们想象，是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说，语言模型具有多维能力，所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段，研究者们急切想知道什么是度量大语言模型潜力的关键因素。

在 GPT-4 发布博客中，作者写道：“在一次随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时，差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。

更重要的是，复杂推理为基于语言模型构建大量应用程序提供了机会，从而使语言模型有机会成为下一代计算平台 / 操作系统。这有可能从根本上改变人类与机器的交互方式，重塑整个计算生态系统。

在这篇文章中，我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。

在天体摄影中，当使用长曝光拍摄星轨时，北极星位于星轨的中心，始终指向真正的北方。在古代，它为旅行者指引方向。

1 - 动机：大语言模型作为新一代计算平台

我们研究复杂推理的原因有两个：

正如上文提到的，复杂推理是标志着小模型与大模型差异的关键因素，这一点在 GPT-4 发布文章中已经讨论过。
复杂推理是使模型成为下一代操作系统的核心能力。

将语言模型视为下一代操作系统的愿景尤为有趣，因为它为构建新应用程序和创建基于语言模型的计算生态系统（可能比超级应用程序如 ChatGPT 提供更大的机会）开辟了无数可能性。复杂推理能力是基础，因为如果我们希望模型成为新的操作系统，它需要能够通过与工具、用户和外部环境的所有元素互动来完成复杂的指令。

本文研究了如何训练具有强大复杂推理能力的模型，如何进行提示工程以充分发挥模型的推理能力，以及如何评估模型的推理性能。本文的内容分为以下几部分：

在第 2 部分，我们讨论了构建具有强大复杂推理能力的语言模型的现有方法。复杂推理的方案与通用大型语言模型（LLM）开发的方案相似，包括三个阶段：持续训练 (continue training)、指令微调 (instruction finetuning) 和强化学习 (reinforcement learning)。我们还会进一步讨论代码与推理之间令人惊讶的耦合关系。
在第 3 部分，我们讨论了复杂推理的提示工程 (prompt engineering) 技术。当语言模型成为新一代操作系统内核时，提示工程 / 场景学习将成为新一代脚本编程 (shell script)。
在第 4 部分，我们讨论了如何评估大型语言模型的推理能力。我们介绍 Chain-of-thought Hub，这是一个包含100多个推理任务的数据集合，清楚地标示了大型与小型模型的差异。我们重点介绍了 LLaMA 65B 的出色表现。我们认为它具有非常强大的潜力，可作为再现 ChatGPT-3.5 的基座模型。

1 - 动机：大语言模型作为新一代计算平台

2 - 增加大语言模型推理能力的方案