月之暗面 (Moonshot AI) 发布并开源了最新模型 Kimi K2.6,主打编程、长时程任务执行和智能体集群 (Agent Swarm) 能力。该模型现已通过 Kimi.com、Kimi App、API 及 Kimi Code 提供使用。
在编程能力方面,Kimi K2.6 在 SWE-Bench Pro 上得分 58.6,超过 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 53.4;Terminal-Bench 2.0 得分 66.7,与 GPT-5.4 和 Claude Opus 4.6 的 65.4 持平;SWE-Bench Multilingual 得分 76.7,接近 Claude Opus 4.6 的 77.8。不过在 SciCode (52.2 vs 58.9)、OJBench (60.6 vs 70.7)、LiveCodeBench v6 (89.6 vs 91.7) 等基准上,Gemini 3.1 Pro 仍保持领先。
在通用智能体基准上,Kimi K2.6 在 Humanity's Last Exam (带工具) 上以 54.0 领先 GPT-5.4 的 52.1 和 Claude Opus 4.6 的 53.0;DeepSearchQA F1 得分 92.5,大幅领先 GPT-5.4 的 78.6。但在 BrowseComp 上 Gemini 3.1 Pro 以 85.9 领先 Kimi K2.6 的 83.2,Toolathlon 上 GPT-5.4 以 54.6 领先 Kimi K2.6 的 50.0。在推理与知识类基准上,Kimi K2.6 与头部模型仍有差距,如 HLE-Full 得分 34.7,低于 Gemini 3.1 Pro 的 44.4 和 Claude Opus 4.6 的 40.0。
多家企业在测试评价中给予正面反馈。Vercel 表示 K2.6 在其 Next.js 基准上相比 K2.5 提升超过 50%,跻身平台表现最佳的模型之列;CodeBuddy 的内部评估显示代码生成准确率提升 12%,长上下文稳定性提升 18%,工具调用成功率达 96.60%。Ollama 也表示 K2.6 将开箱支持其所有集成。
(Kimi)