OpenAI 于 12 月 21 日发布了新一代推理引擎 o3 及其轻量版 o3-mini。新模型在数学、编程等多个领域展现出惊人的能力提升,但也因其高昂的计算成本引发关注。
o3 在编程能力上取得重大突破。在著名编程竞赛平台 CodeForces 上获得 2727 分,位列全球第 175 名,超过了 OpenAI 首席科学家 2665 分的历史最高分。在软件工程基准 SWE-bench Verified 测试中,o3 准确率达到 71.7%,比前代 o1 模型高出约 20 个百分点。
在数学领域,o3 在美国数学竞赛 AIME 2024 中取得 96.7% 的准确率,仅错一题。在由 60 多位顶尖数学家共同开发的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题,远超此前其他模型不足 2% 的表现。OpenAI 研究副总裁 Mark Chen 表示,即使专业数学家解决其中一道题目也需要数小时到数天时间。
值得关注的是,o3 在 ARC-AGI 基准测试中首次超越人类水平。在高计算资源配置下,o3 达到 87.5% 的准确率,超过了人类 85% 的基准线。然而,ARC-AGI 创始人 François Chollet 指出,o3 在许多简单任务上仍表现不佳,这表明其与真正的通用人工智能(AGI)仍有本质差距。
o3 的高性能背后是极高的计算成本。据 Keras 之父 François Chollet 披露,o3 在低计算量模式下每个任务需要花费约 20 美元,而在高计算量模式下单个任务成本可达数千美元。相比之下,o1 的成本要低得多。
OpenAI 同时推出了面向普及的轻量版本 o3-mini,支持低、中、高三种推理时间选项。北大校友、OpenAI 研究科学家任泓宇展示了 o3-mini 在代码生成和科学问答等任务上的出色表现。o3-mini 预计将于 2025 年 1 月底向公众开放。
目前 o3 和 o3-mini 仍处于安全测试阶段,仅向特定研究人员开放。感兴趣的用户可通过 OpenAI 官网申请早期测试资格。OpenAI CEO Sam Altman 表示,公司计划在明年初正式推出这两款模型。
(综合媒体报道)