丁敏捷、陈敏刚
上海市生成式人工智能质量检验检测中心
1、引言
2024年9月12日,OpenAI推出了o1,这是一种新的大语言模型,通过强化学习训练,以执行复杂的推理。与以往大模型最大的不同在于——o1 在回答之前会思考——它可以在回应用户之前产生一个内部思维链。本文将对o1的技术报告进行解读。(https://openai.com/index/learning-to-reason-with-llms/)
2、o1的评估
OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。OpenAI发布了该模型的早期版本 OpenAI o1-preview[1]。
OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用思维链进行有效思考。OpenAI发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能会持续提高。该现象与大模型预训练的规模法则大不相同,OpenAI将继续研究这些现象的规律。
图1 o1的性能随着训练时计算和测试时计算的增加而平稳提升
为了突出推理能力相对于 GPT-4o 的提升,o1在一系列不同的人类考试和 ML 基准上接受测试实验表明,在绝大多数注重推理能力的任务中,o1 的表现明显优于 GPT-4o。
图2 o1 在AIME2024、Codeforces、GPQA Diamond基准上大大优于 GPT-4o。上图高亮区域表示 pass@1 准确率,阴影区域表示 64 个样本的多数投票(共识)表现。
图3 o1在包括54/57个MMLU子类别在内的广泛基准测试中的表现超过了GPT-4o。
在许多注重推理能力的基准测试中,o1 可与人类专家的表现相媲美。最近的前沿模型(如Claude 3.5 Sonnet、Google Deepmind Gemini Pro)在 MATH 和 GSM8K上表现出色,以至于这些基准不再能够有效地测试最新模型。OpenAI评估了 AIME 上的数学表现,AIME 是一项旨在挑战美国最优秀高中生数学能力的测试。在 2024 年的 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题。o1 在每个问题单样本情况下平均为 74% (11.1/15),在 64 个样本中达成共识情况下为 83% (12.5/15),在使用学习到的评分函数对 1000 个样本重新排名情况下为 93% (13.9/15)。13.9 的分数使其跻身全国前 500 名学生之列,并超过了美国数学奥林匹克的分数线。
OpenAI还在 GPQA Diamond上对 o1 进行了评估,这是一个很难的智力基准,测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI招募了具有博士学位的专家来回答 GPQA Diamond问题。 o1 的表现超过了人类专家,成为第一个在这个基准上做到这一点的模型。但这些结果并不意味着 o1 在各方面都比博士更有能力——只是意味着该模型在解决一些博士需要解决的问题方面更熟练。在其他几个 ML 基准测试中,o1 的表现都超过了当前最先进的水平。在启用视觉感知功能后,o1 在 MMMU 上的得分为 78.2%,成为第一个与人类专家相媲美的模型。它还在 57 个 MMLU 子类别中的 54 个上超过 GPT-4o。
3、思维链
与人类在回答难题之前会长时间思考类似,o1 在尝试解决问题时会使用思维链。通过强化学习,o1 学会磨练其思维链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃,o1的技术报告展示了gpt-4o与o1-preview解决问题的差异(由于篇幅原因,详细差异可访问引言中提到的网址查看),gpt-4o在大部分场景下并没有得出答案,请求用户提供更多信息,而o1-preview经过一系列推理之后对用户输入的问题进行了正确的解答。
4、编码
OpenAI初始化o1并进行编程方面的训练,训练得到的模型(o1-ioi)在 2024 年国际信息学奥林匹克 (IOI) 比赛中获得 213 分,排名49%。该模型在与人类参赛者相同的条件下参加了 2024 年 IOI 比赛。它有 10 个小时来解决六个具有挑战性的算法问题,每个问题允许提交 50 次。
OpenAI也模拟了 Codeforces 主办的编程竞赛,该竞赛允许10次提交。GPT-4o 的 Elo 评分为808 ,位于人类参赛者的第 11 个百分位。o1-ioi远远超过了 GPT-4o 和 o1——它的 Elo 评分为 1807,优于 93% 的竞争对手。
图4 在针对编程竞赛的进一步微调之后,o1的性能得到了提升。
5、人类偏好评估
除了考试和学术基准之外,OpenAI还在广泛领域的具有挑战性的开放式提示(prompt)上评估了人类对 o1-preview 和 GPT-4o 的偏好。在这次评估中,人类训练者看到了 o1-preview 和 GPT-4o 对prompt的匿名回答,并投票选出他们更喜欢的回答。在数据分析、编码和数学等注重推理能力的类别中,o1-preview 的受欢迎程度远远高于 gpt-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有场合。
图5 人类对o1-preview 与GPT-4o的偏好对比。
6、安全
思维链推理为对齐和安全提供了新的机会。OpenAI发现,将模型行为策略整合到推理模型的思维链中,是一种强有力地传输人类价值观和原则的方法。通过向模型教授人类的安全规则以及如何在上下文中推理它们,OpenAI发现推理能力直接有利于模型鲁棒性的证据:o1-preview 在关键越狱评估(key jailbreak evaluations)和OpenAI用于评估模型安全拒绝边界(safety refusal boundaries)的最严格的内部基准上取得了显着的提升。OpenAI认为,使用思维链为安全和对齐提供了重大进步,因为 (1) 它使我们能够以清晰的方式观察模型思维,并且 (2) 关于安全规则的模型推理对于分布外场景更具鲁棒性。
OpenAI在模型部署之前进行了一系列安全测试和红队测试。并且发现,思维链推理有助于提高模型的能力。特别值得注意的是,OpenAI观察到了奖励黑客攻击(reward hacking)的有趣实例[2]。这些评估的详细结果可在o1的system card中查看[3]。
图6 GPT-4o和o1-preview的安全测试对比
7、隐藏思维链
OpenAI认为隐藏的思维链为监控模型提供了独特的机会。假设它是忠实且清晰的,隐藏的思维链使我们能够“读懂”模型的思想并了解其思维过程。例如,将来我们可能希望监控思维链以寻找操纵用户的迹象。但是,要做到这一点,模型必须能够自由地以未改变的形式表达其思想,因此无法将任何政策合规性或用户偏好训练到思路链上。OpenAI也不想让用户直接看到未对齐的思维链。
因此,在权衡了用户体验、竞争优势以及是否要进行思维链监控等多种因素后,OpenAI决定不向用户展示原始思维链。OpenAI承认这个决定有一定弊端,并努力通过教导模型在输出中重现思路链中的任何有用的思路来弥补这一缺点。对于 o1 模型系列,OpenAI展示模型生成的思维链摘要。
o1 显著提升了 AI 推理的最高水平。OpenAI计划在不断迭代的过程中发布o1的改进版本,期望这些新的推理能力将提高我们把模型与人类价值观和原则相结合的能力,相信 o1 及其后续产品将在科学、编码、数学和相关领域为 AI 解锁许多新应用,并且很高兴用户和 API 开发人员能够发现它如何改善他们的日常工作。
8、小结
本文介绍了OpenAI最新发布的o1大模型。以往我们需要向模型给出例如“让我们一步一步思考”这样的prompt,才能让模型产生思维链,而不是直接输出结果。而o1在回答问题之前可以自行像人类一样进行思考,产生内部思维链,无需额外的输入。除此之外,o1也在各种需要较强推理能力的任务中胜过了其他大模型,甚至达到人类博士水平。
GPT-4o使得GPT具有了多模态数据处理能力,o1则是GPT在模型推理能力上迈出的重要一步,并将大大推进大模型对齐以及安全性方面的研究。
参考文献
[1]https://platform.openai.com/docs/guides/rate-limits/usage-tiers
[2]https://cdn.openai.com/o1-system-card.pdf#page=16
[3] https://openai.com/index/openai-o1-system-card/
版权所有 ©2021. 上海计算机软件技术开发中心 All Rights Reserved 沪公网安备 31011202012393号,沪ICP备14033306号-25