月之暗面 (Moonshot AI) 发布并开源了最新模型 Kimi K2.6,主打编程、长时程任务执行和智能体集群 (Agent Swarm) 能力。该模型现已通过 Kimi.com、Kimi App、API 及 Kimi Code 提供使用。
在编程能力方面,Kimi K2.6 在 SWE-Bench Pro 上得分 58.6,超过 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 53.4;Terminal-Bench 2.0 得分 66.7,与 GPT-5.4 和 Claude Opus 4.6 的 65.4 持平;SWE-Bench Multilingual 得分 76.7,接近 Claude Opus 4.6 的 77.8。不过在 SciCode (52.2 vs 58.9)、OJBench (60.6 vs 70.7)、LiveCodeBench v6 (89.6 vs 91.7) 等基准上,Gemini 3.1 Pro 仍保持领先。
在通用智能体基准上,Kimi K2.6 在 Humanity's Last Exam (带工具) 上以 54.0 领先 GPT-5.4 的 52.1 和 Claude Opus 4.6 的 53.0;DeepSearchQA F1 得分 92.5,大幅领先 GPT-5.4 的 78.6。但在 BrowseComp 上 Gemini 3.1 Pro 以 85.9 领先 Kimi K2.6 的 83.2,Toolathlon 上 GPT-5.4 以 54.6 领先 Kimi K2.6 的 50.0。在推理与知识类基准上,Kimi K2.6 与头部模型仍有差距,如 HLE-Full 得分 34.7,低于 Gemini 3.1 Pro 的 44.4 和 Claude Opus 4.6 的 40.0。
多家企业在测试评价中给予正面反馈。Vercel 表示 K2.6 在其 Next.js 基准上相比 K2.5 提升超过 50%,跻身平台表现最佳的模型之列;CodeBuddy 的内部评估显示代码生成准确率提升 12%,长上下文稳定性提升 18%,工具调用成功率达 96.60%。Ollama 也表示 K2.6 将开箱支持其所有集成。
(Kimi)
继 Qwen3.6-Plus 之后,阿里云通义千问团队发布了下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview。官方表示,该模型在智能体编程、世界知识和指令遵循三个方面相比 Qwen3.6-Plus 均有显著提升。
在智能体编程方面,Qwen3.6-Max-Preview 在六项主要编程基准上取得最高分,包括 SWE-bench Pro (57.3)、Terminal-Bench 2.0 (65.4)、SkillsBench (55.6)、SciCode (47.0) 等,相比 Qwen3.6-Plus 分别提升了约 0.7、3.8、9.9、10.8 个百分点。在世界知识方面,SuperGPQA 得分达到 73.9,QwenChineseBench 达到 84.0,分别提升 2.3 和 5.3。指令遵循基准 ToolcallFormatIFBench 得分 86.1,提升 2.8。
从评测图表来看,对比模型还包括 Qwen 3.5 Plus、Claude 4.5 Opus 和 GLM 5.1。Qwen3.6-Max-Preview 在多数基准上领先,但在 SWE-bench Pro 上 GLM 5.1 以 58.4 略高于其 57.3,QwenWebBench 上 GLM 5.1 以 1558 的 Elo 评分也略高于其 1532。
用户目前可通过 Qwen Studio (chat.qwen.ai) 体验该模型,后续将通过阿里云百炼 API 以「qwen3.6-max-preview」的名称提供调用。本次发布还支持 preserve_thinking 功能,可在多轮对话中保留前序轮次的思维内容,官方推荐将其用于智能体任务。
(通义千问)
Anthropic 宣布其最新模型 Claude Opus 4.7 现已全面可用。
Opus 4.7 的视觉分辨率支持得到大幅加强,可识别长边高达 2576 像素(约 375 万像素)的图像,为此前型号的三倍以上。此外,新模型在处理专业任务时具备更出色的设计品味与创造力,能生成更高质量的界面、幻灯片和文档。
Opus 4.7 搭载了自动检测和拦截高风险网络安全请求的防护机制。Anthropic 明确表示,为进行风险控制,该模型的网络安全能力刻意保持在低于 Claude Mythos Preview 的水平。
目前,Claude Opus 4.7 已在所有 Claude 产品及其 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 上线。定价与 Opus 4.6 保持一致,为每百万输入词元 (Token) 5 美元,每百万输出词元 25 美元。
伴随模型发布,Anthropic 还推出了多项更新。模型引入了介于 high 和 max 之间的新工作量控制 (Effort level) 级别 xhigh;在 API 中公开测试任务预算 (Task budgets) 功能,方便开发者控制较长任务的词元消耗。此外,Claude Code 新增了 /ultrareview 命令用于深度代码审查,并将自动模式 (Auto mode) 的适用范围扩展至 Max 用户。值得注意的是,Opus 4.7 采用了更新的分词器 (Tokenizer) ,相同输入的词元消耗量将变为原来的 1.0 至 1.35 倍。
(Anthropic)