OpenAI 发布三款音频模型
OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。
语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。
文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。
所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。
(综合媒体报道)
OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。
语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。
文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。
所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。
(综合媒体报道)
新加坡一数据中心发生火灾
据当地媒体报道,3月14日凌晨,位于新加坡菜市路750C(750C Chai Chee Road)的数据中心发生火灾。
据云数据中心提供商SG.GS发给客户的邮件透露,火灾由一次「爆炸」引发,目前公司已派出工程师进行详细调查。初步检查显示,数据中心的服务器仍在运行,但全面恢复尚需时间。
据当地媒体报道,3月14日凌晨,位于新加坡菜市路750C(750C Chai Chee Road)的数据中心发生火灾。
据云数据中心提供商SG.GS发给客户的邮件透露,火灾由一次「爆炸」引发,目前公司已派出工程师进行详细调查。初步检查显示,数据中心的服务器仍在运行,但全面恢复尚需时间。
OpenAI 发布全新 Agent 工具套件
OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。
- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。
- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。
- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。
- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。
- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。
价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token
(综合媒体报道)
OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。
- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。
- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。
- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。
- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。
- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。
价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token
(综合媒体报道)
当晚,网易云音乐再次发文,表示故障因交换机故障引起。
作为补偿,网易云音乐将赠送7天黑胶VIP给受影响的用户,预计将在3月1日24点前直充到账户。
此前 2024 年 8 月 20 日,网易云音乐也曾因存储故障出现大规模宕机。
OpenAI 发布 GPT-4.5(研究预览版)
OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。
GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。
在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。
由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。
GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。
因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。
(综合媒体报道)
OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。
GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。
在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。
由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。
GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。
因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。
(综合媒体报道)
阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。
QwQ 具有类似 Claude Artifacts 的界面,支持深度思考和联网搜索功能,并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示,将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重,并计划发布 Android 和 iOS 版专用应用。此外,团队还将推出更小的模型,如可部署在本地设备的 QwQ-32B。
Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet,这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式:标准模式保持快速响应,适合日常对话;扩展思考模式通过自我反思提升复杂任务表现,特别在数学、物理和编程领域效果显著。在各项基准测试中,Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1,在软件工程基准 SWE-bench 上创下 70.3% 的纪录。
同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构,官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型,但扩展思考模式仅向付费用户开放。定价保持不变:每百万输入词元 3 美元,输出词元 15 美元。
Claude 3.7 Sonnet 目前立即对所有用户可用,API 同步上线。
阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露,阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。
Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
北京时间 2 月 20 日凌晨,苹果正式发布 iPhone 16e,起售价 4499 元。作为 iPhone 16 系列的新成员,iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片,并支持 Apple Intelligence 功能。
iPhone 16e 采用 6.1 英寸 OLED 屏幕,配备 A18 芯片,但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄,不支持微距摄影、空间视频等功能。该机还配备了操作按钮,支持 USB-C 接口(USB 2.0)和 Qi 无线充电,但不支持 MagSafe 磁吸和 Qi2。
苹果表示,C1 芯片是「iPhone 迄今能效最高的调制解调器」,相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片,iPhone 16e 的续航时间达到 26 小时,超越 iPhone 16 的 22 小时。
iPhone 16e 将于 2 月 21 日晚 9 点开启预售,2 月 28 日正式发售。
(综合媒体报道)
——————
与此同时,苹果在发布会中预告,Apple Intelligence 将于四月支持中文,但未有明确是否会如期在中国大陆地区上线。
Anthropic 正准备发布思考模型与网页搜索功能,Pro 会员即将可用。
据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。
为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。
——————
多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。
为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。
——————
多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
马斯克旗下 xAI 发布 Grok 3 模型
xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。
Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。
性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型。
功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证
价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。
语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。
提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。
(综合量子位、机器之心、CNBC 报道)
xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。
Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。
性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型。
功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证
价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。
语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。
提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。
(综合量子位、机器之心、CNBC 报道)
马斯克在X上宣布,xAI 将于太平洋时间 2025 年 2 月 17 日(星期一)晚上 8 点举行 Grok-3 的发布会和现场演示。
此前在迪拜世界政府峰会上,马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称,Grok-3 的表现超过了目前所有已发布的 AI 模型,这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。
此前媒体报道,Grok-3 采用合成数据进行训练,使模型在训练过程中实现自主纠错与逻辑验证,使Grok-3能够主动识别数据矛盾,通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中,该模型展现出处理复杂跨学科问题的卓越能力。
此前在迪拜世界政府峰会上,马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称,Grok-3 的表现超过了目前所有已发布的 AI 模型,这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。
此前媒体报道,Grok-3 采用合成数据进行训练,使模型在训练过程中实现自主纠错与逻辑验证,使Grok-3能够主动识别数据矛盾,通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中,该模型展现出处理复杂跨学科问题的卓越能力。
百度今日官宣,将在未来几个月中陆续推出文心大模型 4.5 系列,并于 6 月 30 日起正式开源。
早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型,同时上线深度搜索功能。
此前 The Information 报道,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。
百度正在为苹果开发基于 AI 的搜索功能,除了能处理图像和文字,也将提升中文版 Siri 的体验,成为国行版 Apple Intelligence 的一部分。
早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型,同时上线深度搜索功能。
此前 The Information 报道,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。
百度正在为苹果开发基于 AI 的搜索功能,除了能处理图像和文字,也将提升中文版 Siri 的体验,成为国行版 Apple Intelligence 的一部分。
OpenAI 公布 GPT-4.5 与 GPT-5 路线图
OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文,正式公开下一代大语言模型的发展路线。据透露,GPT-4.5(内部代号 Orion)将于未来数周至数月内发布,该模型将成为 OpenAI 最后一个非思维链(non-chain-of-thought)基础模型。
- GPT-5 将整合现有 o 系列与 GPT 系列模型,形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5,Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布,其技术将融入 GPT-5
- 未来用户无需手动选择模型,新系统将根据用户提示自动调用最佳模型组合,具备动态调整思考深度等能力。
Pro 用户即日起可在全平台使用深度研究功能,Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次(增加 7 倍)。
同步发布的最新《模型规范白皮书》则披露,OpenAI 将采用 CC0 协议开放模型行为准则框架;建立三级优先级指令链(OpenAI 预设 > 开发者规则 > 用户指令);强化事实核查机制(去年 5 月至今,模型规范遵循度提升 41%)以及新增「知识自由保障条款与进度评估体系」等。
另外,OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。
(The Verge)
OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文,正式公开下一代大语言模型的发展路线。据透露,GPT-4.5(内部代号 Orion)将于未来数周至数月内发布,该模型将成为 OpenAI 最后一个非思维链(non-chain-of-thought)基础模型。
- GPT-5 将整合现有 o 系列与 GPT 系列模型,形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5,Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布,其技术将融入 GPT-5
- 未来用户无需手动选择模型,新系统将根据用户提示自动调用最佳模型组合,具备动态调整思考深度等能力。
Pro 用户即日起可在全平台使用深度研究功能,Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次(增加 7 倍)。
同步发布的最新《模型规范白皮书》则披露,OpenAI 将采用 CC0 协议开放模型行为准则框架;建立三级优先级指令链(OpenAI 预设 > 开发者规则 > 用户指令);强化事实核查机制(去年 5 月至今,模型规范遵循度提升 41%)以及新增「知识自由保障条款与进度评估体系」等。
另外,OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。
(The Verge)
坊间传言称,Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出,重点关注企业应用。
Claude 4采用混合架构设计,整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制(低-中-高),Anthropic引入了连续可调的推理强度刻度尺(0-100%)。该架构通过动态资源分配机制,可根据任务复杂度自动切换运算模式:在处理简单查询时保持标准LLM的响应效率,面对复杂问题时启用增强推理模式。
此前媒体报道,Claude 3.5 Opus的研发遭遇技术瓶颈,作为替代方案,Anthropic采用知识蒸馏技术,将未发布的Opus模型能力迁移至更小规模的架构。
Claude 4采用混合架构设计,整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制(低-中-高),Anthropic引入了连续可调的推理强度刻度尺(0-100%)。该架构通过动态资源分配机制,可根据任务复杂度自动切换运算模式:在处理简单查询时保持标准LLM的响应效率,面对复杂问题时启用增强推理模式。
此前媒体报道,Claude 3.5 Opus的研发遭遇技术瓶颈,作为替代方案,Anthropic采用知识蒸馏技术,将未发布的Opus模型能力迁移至更小规模的架构。
Apple 将在3月25日于上海举行开发者活动,主题为「利用Apple智能的力量」,外界因此猜测国行版Apple Intelligence 即将上线。
此前媒体报道,Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道,国内合作方是阿里巴巴。
(Apple Developer)
此前媒体报道,Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道,国内合作方是阿里巴巴。
(Apple Developer)
GitHub 宣布为 Copilot 引入多项重大更新,包括代理模式(Agent Mode)预览版、Copilot Edits 正式版,以及首度公开研发代号为 Project Padawan 的自主代理功能。
代理模式现已在 VS Code Insiders 版本开放预览。该功能支持多文件上下文感知,可自主迭代代码、识别运行时错误并自动修复,还能通过终端命令建议实现环境配置。开发者只需通过自然语言描述需求(例如「构建马拉松训练追踪 Web 应用」),Copilot 即可自动推断并执行必要子任务,直至完成主要目标。用户需在 Copilot Edits 面板切换至代理模式开启此功能。
Copilot Edits 多文件编辑功能结束预览,正式登陆 VS Code。该功能采用双模型架构:基础模型(可选 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 或 Google Gemini 2.0 Flash)负责生成初始编辑建议,推测解码端点则负责快速应用修改。用户可通过语音交互实时审查跨文件改动,并与测试视图联动验证单元测试结果。Visual Studio 2022 版本已同步开启预览。
Project Padawan 作为未来重点功能首次亮相。该自主代理可将 GitHub 问题直接转化为完整测试的 PR,自动分配人工审核并在云端沙盒执行代码克隆、环境配置、构建测试等全流程。官方承诺将提供扩展接口,支持合作伙伴接入该 AI 原生工作流。
本次更新同步推出三项预览功能:支持保存复用提示模板提升响应一致性;通过自定义指令个性化聊天响应;集成自动化代码审查能力。开发者可通过 VS Code Insiders 版本提前体验部分新特性。
(GitHub 官方博客)