OpenAI 发布新一代推理模型 o3OpenAI 于 12 月 21 日发布了新一代推理引擎 o3 及其轻量版 o3-mini

一个小站的自留地

OpenAI 12 天连更的第四天，ChatGPT Canvas 现支持直接运行 Python 代码，也支持在 GPTs 内使用 Canvas。 —————— 在本次直播中，OpenAI 研究员 Karina Nguyen 展示的新功能界面中出现了ChatGPT ε（第五个希腊字母，读作Epsilon）。网友猜测，这极可能就是之前被传出的下一代模型「猎户座 Orion」。这一模型将有可能在本次 OpenAI 12 天连更中亮相。媒体此前报道，由于训练「猎户座」使用了先前模型（GPT-4和o1）生成…

OpenAI 发布新一代推理模型 o3

OpenAI 于 12 月 21 日发布了新一代推理引擎 o3 及其轻量版 o3-mini。新模型在数学、编程等多个领域展现出惊人的能力提升，但也因其高昂的计算成本引发关注。

o3 在编程能力上取得重大突破。在著名编程竞赛平台 CodeForces 上获得 2727 分，位列全球第 175 名，超过了 OpenAI 首席科学家 2665 分的历史最高分。在软件工程基准 SWE-bench Verified 测试中，o3 准确率达到 71.7%，比前代 o1 模型高出约 20 个百分点。

在数学领域，o3 在美国数学竞赛 AIME 2024 中取得 96.7% 的准确率，仅错一题。在由 60 多位顶尖数学家共同开发的 Frontier Math 基准测试中，o3 解决了 25.2% 的问题，远超此前其他模型不足 2% 的表现。OpenAI 研究副总裁 Mark Chen 表示，即使专业数学家解决其中一道题目也需要数小时到数天时间。

值得关注的是，o3 在 ARC-AGI 基准测试中首次超越人类水平。在高计算资源配置下，o3 达到 87.5% 的准确率，超过了人类 85% 的基准线。然而，ARC-AGI 创始人 François Chollet 指出，o3 在许多简单任务上仍表现不佳，这表明其与真正的通用人工智能（AGI）仍有本质差距。

o3 的高性能背后是极高的计算成本。据 Keras 之父 François Chollet 披露，o3 在低计算量模式下每个任务需要花费约 20 美元，而在高计算量模式下单个任务成本可达数千美元。相比之下，o1 的成本要低得多。

OpenAI 同时推出了面向普及的轻量版本 o3-mini，支持低、中、高三种推理时间选项。北大校友、OpenAI 研究科学家任泓宇展示了 o3-mini 在代码生成和科学问答等任务上的出色表现。o3-mini 预计将于 2025 年 1 月底向公众开放。

目前 o3 和 o3-mini 仍处于安全测试阶段，仅向特定研究人员开放。感兴趣的用户可通过 OpenAI 官网申请早期测试资格。OpenAI CEO Sam Altman 表示，公司计划在明年初正式推出这两款模型。

（综合媒体报道）