Kimi K2.6 开源发布月之暗面 (Moonshot AI) 发布并开源了最新模型 Kimi K2.6，主打编程、长时程任务执行和智能体集群 (Agent Swarm) 能力

一个小站的自留地

月之暗面通过邮件宣布，K2.6-code-preview 新模型即将全量推出。此前，月之暗面通过 Kimi Code 抢先体验计划向部分用户开放了该模型的访问权限。

Kimi K2.6 开源发布

月之暗面 (Moonshot AI) 发布并开源了最新模型 Kimi K2.6，主打编程、长时程任务执行和智能体集群 (Agent Swarm) 能力。该模型现已通过 Kimi.com、Kimi App、API 及 Kimi Code 提供使用。

在编程能力方面，Kimi K2.6 在 SWE-Bench Pro 上得分 58.6，超过 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 53.4；Terminal-Bench 2.0 得分 66.7，与 GPT-5.4 和 Claude Opus 4.6 的 65.4 持平；SWE-Bench Multilingual 得分 76.7，接近 Claude Opus 4.6 的 77.8。不过在 SciCode (52.2 vs 58.9)、OJBench (60.6 vs 70.7)、LiveCodeBench v6 (89.6 vs 91.7) 等基准上，Gemini 3.1 Pro 仍保持领先。

在通用智能体基准上，Kimi K2.6 在 Humanity's Last Exam (带工具) 上以 54.0 领先 GPT-5.4 的 52.1 和 Claude Opus 4.6 的 53.0；DeepSearchQA F1 得分 92.5，大幅领先 GPT-5.4 的 78.6。但在 BrowseComp 上 Gemini 3.1 Pro 以 85.9 领先 Kimi K2.6 的 83.2，Toolathlon 上 GPT-5.4 以 54.6 领先 Kimi K2.6 的 50.0。在推理与知识类基准上，Kimi K2.6 与头部模型仍有差距，如 HLE-Full 得分 34.7，低于 Gemini 3.1 Pro 的 44.4 和 Claude Opus 4.6 的 40.0。

多家企业在测试评价中给予正面反馈。Vercel 表示 K2.6 在其 Next.js 基准上相比 K2.5 提升超过 50%，跻身平台表现最佳的模型之列；CodeBuddy 的内部评估显示代码生成准确率提升 12%，长上下文稳定性提升 18%，工具调用成功率达 96.60%。Ollama 也表示 K2.6 将开箱支持其所有集成。

（Kimi）