阿里开源推理大模型 QwQ-32B-Preview阿里 Qwen 团队发布了专注于推理和思维链的新一代大语言模型 QwQ-32B-Preview

一个小站的自留地

Kimi 上线数学推理模型 k0-math 国内 AI 大模型公司月之暗面推出 k0-math 模型驱动的 Kimi 数学版，官方宣称「k0-math 模型数学能力对标 o1 系列」。（月之暗面） —————— 根据SuperCLUE-Math6o「小学奥数」基准测评总榜，数学模型 k0-math 在数学任务中表现出对应用题和计算较强的处理能力，但在行程问题和几何任务上略显薄弱。与o1-preview相比，数学模型 k0-math 在 SC-math6o 上仍有 18 分的差距，尚有较大的…

阿里开源推理大模型 QwQ-32B-Preview

阿里 Qwen 团队发布了专注于推理和思维链的新一代大语言模型 QwQ-32B-Preview。该模型基于 Qwen2.5 32B 的架构，采用 Apache 2.0 许可证开源，支持商用。

QwQ 在多个复杂推理基准测试上展现出突出表现：在 GPQA（研究生级问答）得分 65.2%，在 AIME（美国数学邀请赛）达到 50.0%，在 MATH-500 基准测试中达到 90.6%，在 LiveCodeBench（实际编程场景）测评中达到 50.0%。这些分数显示其在推理、数学和编程领域均具有较强实力。

该模型特点是通过深入思考和自省方式解决问题。在处理复杂问题时，它不会直接给出结论，而是模拟人类思维，通过分步推导和不断反思来得出答案。然而，模型目前也存在一些限制，如语言切换不稳定、可能陷入递归推理循环、部分安全机制尚待完善等。

Qwen 团队指出，该模型本质上体现了推理缩放规律 (inference scaling law)：允许模型有更长的思考时间，推理能力会相应提升。QwQ 作为开源领域首个专注推理能力的大模型，为开发者提供了一个可直接使用的基础工具。

（DataLearner）