头闻号

武义彩虹涂料有限公司

特种涂料|涂料、油漆

首页 > 全部文章 > GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o
GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o
发布时间:2024-09-19        阅读量:309        返回列表        去平台详情
OpenAI 推出 o1 系列大模型,主打通用推理能力 来源:无

9月13日,OpenAI 宣布推出 o1 系列人工智能模型,旨在提升复杂推理能力。


OpenAI o1 系列大模型

与前代模型相比,o1 擅长通用推理,在物理、信息学等领域表现优异。OpenAI CEO 奥特曼表示,这代表了人工智能领域的新范式:具备通用推理能力的人工智能。


目前,o1 系列仍处于早期阶段,不具备 ChatGPT 的某些功能,如联网搜索和文件上传。


尽管如此,o1 在竞赛数学、编码和科学等方面表现出色,在数学竞赛中甚至大幅领先 GPT-4o。


o1 采用 "思维链" 模式训练,提升逻辑推理能力。它在回答问题前会花费更长时间思考,注重推理结果的准确性,而不是输出速度。


以下是 o1 能力的简单测试:


推理测试:

"单词 strawberry 里面到底有几个 r"

GPT-4o 错误回答
o1 准确回答

"9.11 和 9.8 谁更大?"

GPT-4o 错误回答
o1 准确回答
小学奥数测试:

"1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?"


o1 纠正自己的错误
竞赛类测试:

OpenAI 表示,o1 在物理、化学和生物等挑战性基准任务上的表现达到博士生水平,在数学和编码方面尤为出色。


o1 在 IMO 资格考试中的表现
o1 在 Codeforces 竞赛中的表现

在 2024 IOI 信息学奥赛题目中,经过微调的 o1 在每题尝试 50 次条件下获得 213 分,超过了大多数人类数学天才。


o1 在 IOI 竞赛中的表现

在 AIME 2023 数学竞赛题目测试中,o1 给出了正确的答案。


o1 在 AIME 2023 竞赛中的表现
官方给出的正确答案
代码能力测试:

o1 可以通过提供代码实现俄罗斯方块小游戏。


o1 实现俄罗斯方块小游戏
俄罗斯方块小游戏运行
总结:

o1 系列大模型的亮点在于显著提升的逻辑推理能力,可以给出正确的解题思路,接近人类的思维过程。它在数学领域表现突出。


然而,它在特定领域的精确度和应对复杂对话方面仍需改进。在重推理的领域,o1 更加适合,而在自然语言任务中,GPT-4o 更具优势。


0条  相关评论