OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。
- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。
- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。
- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。
- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。
- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。
价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token
(综合媒体报道)
当晚,网易云音乐再次发文,表示故障因交换机故障引起。
作为补偿,网易云音乐将赠送7天黑胶VIP给受影响的用户,预计将在3月1日24点前直充到账户。
此前 2024 年 8 月 20 日,网易云音乐也曾因存储故障出现大规模宕机。
OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。
GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。
在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。
由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。
GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。
因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。
(综合媒体报道)
阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。
QwQ 具有类似 Claude Artifacts 的界面,支持深度思考和联网搜索功能,并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示,将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重,并计划发布 Android 和 iOS 版专用应用。此外,团队还将推出更小的模型,如可部署在本地设备的 QwQ-32B。
Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet,这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式:标准模式保持快速响应,适合日常对话;扩展思考模式通过自我反思提升复杂任务表现,特别在数学、物理和编程领域效果显著。在各项基准测试中,Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1,在软件工程基准 SWE-bench 上创下 70.3% 的纪录。
同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构,官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型,但扩展思考模式仅向付费用户开放。定价保持不变:每百万输入词元 3 美元,输出词元 15 美元。
Claude 3.7 Sonnet 目前立即对所有用户可用,API 同步上线。
——————
针对 Hopper GPU 优化的多头潜注意力内核 FlashMLA
DeepSeek 于 2 月 24 日推出开源周首日项目 FlashMLA,这是一款专为英伟达 Hopper GPU 架构优化的高效多头潜注意力(Multi-head Latent Attention,MLA)解码内核。该技术针对变长序列进行了专门优化,并已在 DeepSeek 生产环境中投入使用。经实测,FlashMLA 在 H800 SXM5 平台上(CUDA 12.6)表现出色,内存受限配置下可达 3000 GB/s 的吞吐量,计算受限配置下可达 580 TFLOPS 的性能。
MLA 技术是 DeepSeek 训练成本较低的核心秘诀之一,能将每次查询所需的 KV 缓存量减少约 93.3%,显著降低内存占用。当前版本已支持 BF16 精度和 64 块大小的分页 KV 缓存。这一项目的设计借鉴了 FlashAttention-2、FlashAttention-3 以及 CUTLASS 的技术实现,使用 MIT 许可证开源。
MoE 专用通信库 DeepEP
DeepSeek 于 2 月 25 日推出开源周第二天项目 DeepEP,这是首个专为混合专家模型(MoE)训练和推理设计的开源专家并行(Expert Parallelism,EP)通信库。该库提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,支持 FP8 低精度计算,显著提升了大规模 MoE 模型的性能。
DeepEP 的关键特性包括:高效优化的全对全通信、节点内 NVLink 和节点间 RDMA 支持、训练和推理预填充用的高吞吐量内核、推理解码用的低延迟内核,以及灵活的 GPU 资源控制。在基于 H800 GPU 的测试中,常规内核在训练场景下实现了 158 GB/s 的 NVLink 带宽,而低延迟内核在推理任务中将延迟降至 163 微秒。DeepEP 采用 MIT 开源协议发布,需要特定环境支持,包括 Hopper GPU 架构、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+,目前暂不支持消费级显卡。
Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
北京时间 2 月 20 日凌晨,苹果正式发布 iPhone 16e,起售价 4499 元。作为 iPhone 16 系列的新成员,iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片,并支持 Apple Intelligence 功能。
iPhone 16e 采用 6.1 英寸 OLED 屏幕,配备 A18 芯片,但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄,不支持微距摄影、空间视频等功能。该机还配备了操作按钮,支持 USB-C 接口(USB 2.0)和 Qi 无线充电,但不支持 MagSafe 磁吸和 Qi2。
苹果表示,C1 芯片是「iPhone 迄今能效最高的调制解调器」,相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片,iPhone 16e 的续航时间达到 26 小时,超越 iPhone 16 的 22 小时。
iPhone 16e 将于 2 月 21 日晚 9 点开启预售,2 月 28 日正式发售。
(综合媒体报道)
——————
与此同时,苹果在发布会中预告,Apple Intelligence 将于四月支持中文,但未有明确是否会如期在中国大陆地区上线。
据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。
为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。
——————
多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。
Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。
性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型。
功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证
价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。
语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。
提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。
(综合量子位、机器之心、CNBC 报道)
此前在迪拜世界政府峰会上,马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称,Grok-3 的表现超过了目前所有已发布的 AI 模型,这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。
此前媒体报道,Grok-3 采用合成数据进行训练,使模型在训练过程中实现自主纠错与逻辑验证,使Grok-3能够主动识别数据矛盾,通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中,该模型展现出处理复杂跨学科问题的卓越能力。
早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型,同时上线深度搜索功能。
此前 The Information 报道,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。
百度正在为苹果开发基于 AI 的搜索功能,除了能处理图像和文字,也将提升中文版 Siri 的体验,成为国行版 Apple Intelligence 的一部分。
OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文,正式公开下一代大语言模型的发展路线。据透露,GPT-4.5(内部代号 Orion)将于未来数周至数月内发布,该模型将成为 OpenAI 最后一个非思维链(non-chain-of-thought)基础模型。
- GPT-5 将整合现有 o 系列与 GPT 系列模型,形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5,Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布,其技术将融入 GPT-5
- 未来用户无需手动选择模型,新系统将根据用户提示自动调用最佳模型组合,具备动态调整思考深度等能力。
Pro 用户即日起可在全平台使用深度研究功能,Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次(增加 7 倍)。
同步发布的最新《模型规范白皮书》则披露,OpenAI 将采用 CC0 协议开放模型行为准则框架;建立三级优先级指令链(OpenAI 预设 > 开发者规则 > 用户指令);强化事实核查机制(去年 5 月至今,模型规范遵循度提升 41%)以及新增「知识自由保障条款与进度评估体系」等。
另外,OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。
(The Verge)
Claude 4采用混合架构设计,整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制(低-中-高),Anthropic引入了连续可调的推理强度刻度尺(0-100%)。该架构通过动态资源分配机制,可根据任务复杂度自动切换运算模式:在处理简单查询时保持标准LLM的响应效率,面对复杂问题时启用增强推理模式。
此前媒体报道,Claude 3.5 Opus的研发遭遇技术瓶颈,作为替代方案,Anthropic采用知识蒸馏技术,将未发布的Opus模型能力迁移至更小规模的架构。
Apple 将在3月25日于上海举行开发者活动,主题为「利用Apple智能的力量」,外界因此猜测国行版Apple Intelligence 即将上线。