英国爱丁堡大学
感谢艾伦人工智能研究所 彭昊,Tushar Khot 的深入讨论
2023 年 4 月 30 日开始写作,完稿于 2023 年 5 月 3 日
与 GPT-4 交互翻译为中文
英文原版
https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lJMlpHRm1aVE5tT0dReE1UUTBOV05oT1dSalpqaGhNbU5oTVdNMVlqRTVPU0lzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklrTnlVbFp3WkVOMWEyRnJNblU1U0hWVVdXUjNJbjA9
最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段,研究者们急切想知道什么是度量大语言模型潜力的关键因素。
在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。
更重要的是,复杂推理为基于语言模型构建大量应用程序提供了机会,从而使语言模型有机会成为下一代计算平台 / 操作系统。这有可能从根本上改变人类与机器的交互方式,重塑整个计算生态系统。
在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。
在天体摄影中,当使用长曝光拍摄星轨时,北极星位于星轨的中心,始终指向真正的北方。在古代,它为旅行者指引方向。
目录
我们研究复杂推理的原因有两个:
将语言模型视为下一代操作系统的愿景尤为有趣,因为它为构建新应用程序和创建基于语言模型的计算生态系统(可能比超级应用程序如 ChatGPT 提供更大的机会)开辟了无数可能性。复杂推理能力是基础,因为如果我们希望模型成为新的操作系统,它需要能够通过与工具、用户和外部环境的所有元素互动来完成复杂的指令。
本文研究了如何训练具有强大复杂推理能力的模型,如何进行提示工程以充分发挥模型的推理能力,以及如何评估模型的推理性能。本文的内容分为以下几部分: