一个小站的自留地
Kimi 上线数学推理模型 k0-math 国内 AI 大模型公司月之暗面推出 k0-math 模型驱动的 Kimi 数学版,官方宣称「k0-math 模型数学能力对标 o1 系列」。 (月之暗面) —————— 根据SuperCLUE-Math6o「小学奥数」基准测评总榜,数学模型 k0-math 在数学任务中表现出对应用题和计算较强的处理能力,但在行程问题和几何任务上略显薄弱。 与o1-preview相比,数学模型 k0-math 在 SC-math6o 上仍有 18 分的差距,尚有较大的…
阿里开源推理大模型 QwQ-32B-Preview

阿里 Qwen 团队发布了专注于推理和思维链的新一代大语言模型 QwQ-32B-Preview。该模型基于 Qwen2.5 32B 的架构,采用 Apache 2.0 许可证开源,支持商用

QwQ 在多个复杂推理基准测试上展现出突出表现:在 GPQA(研究生级问答)得分 65.2%,在 AIME(美国数学邀请赛)达到 50.0%,在 MATH-500 基准测试中达到 90.6%,在 LiveCodeBench(实际编程场景)测评中达到 50.0%。这些分数显示其在推理、数学和编程领域均具有较强实力。

该模型特点是通过深入思考和自省方式解决问题。在处理复杂问题时,它不会直接给出结论,而是模拟人类思维,通过分步推导和不断反思来得出答案。然而,模型目前也存在一些限制,如语言切换不稳定、可能陷入递归推理循环、部分安全机制尚待完善等。

Qwen 团队 指出 ,该模型本质上体现了推理缩放规律 (inference scaling law):允许模型有更长的思考时间,推理能力会相应提升。QwQ 作为开源领域首个专注推理能力的大模型,为开发者提供了一个可直接使用的基础工具。

(DataLearner)
 
 
Back to Top