阿里 Qwen 团队发布了专注于推理和思维链的新一代大语言模型 QwQ-32B-Preview。该模型基于 Qwen2.5 32B 的架构,采用 Apache 2.0 许可证开源,支持商用。
QwQ 在多个复杂推理基准测试上展现出突出表现:在 GPQA(研究生级问答)得分 65.2%,在 AIME(美国数学邀请赛)达到 50.0%,在 MATH-500 基准测试中达到 90.6%,在 LiveCodeBench(实际编程场景)测评中达到 50.0%。这些分数显示其在推理、数学和编程领域均具有较强实力。
该模型特点是通过深入思考和自省方式解决问题。在处理复杂问题时,它不会直接给出结论,而是模拟人类思维,通过分步推导和不断反思来得出答案。然而,模型目前也存在一些限制,如语言切换不稳定、可能陷入递归推理循环、部分安全机制尚待完善等。
Qwen 团队 指出 ,该模型本质上体现了推理缩放规律 (inference scaling law):允许模型有更长的思考时间,推理能力会相应提升。QwQ 作为开源领域首个专注推理能力的大模型,为开发者提供了一个可直接使用的基础工具。
(DataLearner)