GPT-o1模型实测：“物化生”水平超人类博士？推理能力碾压GPT-4o_全部文章

OpenAI 推出 o1 系列大模型，主打通用推理能力来源：无

9月13日，OpenAI 宣布推出 o1 系列人工智能模型，旨在提升复杂推理能力。

与前代模型相比，o1 擅长通用推理，在物理、信息学等领域表现优异。OpenAI CEO 奥特曼表示，这代表了人工智能领域的新范式：具备通用推理能力的人工智能。

目前，o1 系列仍处于早期阶段，不具备 ChatGPT 的某些功能，如联网搜索和文件上传。

尽管如此，o1 在竞赛数学、编码和科学等方面表现出色，在数学竞赛中甚至大幅领先 GPT-4o。

o1 采用 "思维链" 模式训练，提升逻辑推理能力。它在回答问题前会花费更长时间思考，注重推理结果的准确性，而不是输出速度。

以下是 o1 能力的简单测试：

推理测试：

"单词 strawberry 里面到底有几个 r"

"9.11 和 9.8 谁更大？"

小学奥数测试：

"1 元钱一瓶汽水，喝完后两个空瓶换一瓶汽水，问：你有 20 元钱，最多可以喝到几瓶汽水？"

竞赛类测试：

OpenAI 表示，o1 在物理、化学和生物等挑战性基准任务上的表现达到博士生水平，在数学和编码方面尤为出色。

在 2024 IOI 信息学奥赛题目中，经过微调的 o1 在每题尝试 50 次条件下获得 213 分，超过了大多数人类数学天才。

在 AIME 2023 数学竞赛题目测试中，o1 给出了正确的答案。

代码能力测试：

o1 可以通过提供代码实现俄罗斯方块小游戏。

总结：

o1 系列大模型的亮点在于显著提升的逻辑推理能力，可以给出正确的解题思路，接近人类的思维过程。它在数学领域表现突出。

然而，它在特定领域的精确度和应对复杂对话方面仍需改进。在重推理的领域，o1 更加适合，而在自然语言任务中，GPT-4o 更具优势。

武义彩虹涂料有限公司