GitHub 宣布为 Copilot 引入多项重大更新,包括代理模式(Agent Mode)预览版、Copilot Edits 正式版,以及首度公开研发代号为 Project Padawan 的自主代理功能。
代理模式现已在 VS Code Insiders 版本开放预览。该功能支持多文件上下文感知,可自主迭代代码、识别运行时错误并自动修复,还能通过终端命令建议实现环境配置。开发者只需通过自然语言描述需求(例如「构建马拉松训练追踪 Web 应用」),Copilot 即可自动推断并执行必要子任务,直至完成主要目标。用户需在 Copilot Edits 面板切换至代理模式开启此功能。
Copilot Edits 多文件编辑功能结束预览,正式登陆 VS Code。该功能采用双模型架构:基础模型(可选 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 或 Google Gemini 2.0 Flash)负责生成初始编辑建议,推测解码端点则负责快速应用修改。用户可通过语音交互实时审查跨文件改动,并与测试视图联动验证单元测试结果。Visual Studio 2022 版本已同步开启预览。
Project Padawan 作为未来重点功能首次亮相。该自主代理可将 GitHub 问题直接转化为完整测试的 PR,自动分配人工审核并在云端沙盒执行代码克隆、环境配置、构建测试等全流程。官方承诺将提供扩展接口,支持合作伙伴接入该 AI 原生工作流。
本次更新同步推出三项预览功能:支持保存复用提示模板提升响应一致性;通过自定义指令个性化聊天响应;集成自动化代码审查能力。开发者可通过 VS Code Insiders 版本提前体验部分新特性。
(GitHub 官方博客)
2025 年 2 月 6 日 16 时 14 分(北京时间),Cloudflare 对象存储服务 R2 突发全球性中断,引发包括 Stream 视频传输、Images 图片管理、Vectorize AI 索引等 9 项核心服务的连锁故障,持续 59 分钟。事故期间,R2 接口完全瘫痪,用户遭遇 100% 的 HTTP 500 错误响应,连带导致 Dify.AI 等第三方平台文件系统停摆,Docker Hub 镜像拉取异常。
事故根源系人工操作失误——安全团队处理钓鱼网站举报时,误将生产环境 R2 网关服务禁用。该操作触发 API 前端服务崩溃,但底层存储架构保持完整,未造成数据丢失。恢复过程中,运维团队因管理工具依赖 R2 服务而受阻,最终通过底层系统操作完成服务重启。
Cloudflare 事后承诺将改进内部账户标记机制,实施双人审批制度,并建立产品禁用操作防护网。
(Cloudflare Blog)
2025 年 2 月 6 日,谷歌正式发布 Gemini 2.0 系列大语言模型,包含 Gemini 2.0 Pro(实验版)、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 三个版本。该系列模型在编码、复杂指令处理和长文本理解能力上均有显著提升,最高支持 200 万 tokens 上下文窗口。
各模型亮点一览:
- Gemini 2.0 Pro:支持 200 万 tokens 上下文窗口,在 MMLU Pro 评测中以 86.5 分超越 DeepSeek-R1(85.3 分),开发者每日可免费调用 50 次
- Gemini 2.0 Flash:正式版上线,100 万 tokens 上下文窗口,支持多模态输入,未来将开放图像生成功能
- Gemini 2.0 Flash-Lite:输入成本低至每百万 tokens 0.35 美元,处理 4 万张图片描述任务总成本不足 1 美元
目前,正式版模型已在 Google AI Studio 和 Vertex AI 开放 API 调用;Gemini Advanced 用户可通过应用端直接访问 Pro 实验版。而图像生成与文本转语音功能计划在未来数月上线。
(综合媒体报道)
北京时间 2 月 3 日,OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」,该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放,月均查询上限为 100 次,将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。
Deep Research 基于 o3 模型构建,针对网页浏览和 Python 数据分析进行优化,具备三项核心能力:
- 支持解析互联网文本、图像和 PDF 文件,并根据获取信息动态调整策略;
- 可浏览用户上传文件并生成可视化图表;
- 提供完整引用来源和思路摘要,便于验证信息可靠性。
ChatGPT Plus、Team 和 Pro 用户从今天开始可以访问 OpenAI o3-mini,企业访问权限将在一周内推出。
另外,目前o3-mini已经可以在 Github Copilot 中使用。
而国内较大的大模型推理服务商硅基流动则宣布正式上线 Deepseek V3 和 R1 模型 API,填补 Deepseek 近期官方 API 服务不稳定的缺口。(托管于华为云,定价和 Deepseek 官网相同,但推理精度有降低)
截至发稿,Deepseek 官方 API 平台仍无法打开,API 调用成功率,特别是海外地区的成功率有明显降低。
这一促销可能会在未来定向推送给近期因 Deepseek 爆火而取消订阅 ChatGPT 的用户。
阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型,该模型基于混合专家架构(Mixture-of-Experts, MoE),参数规模超 200 亿,训练数据量达 20 万亿词元。据官方基准测试显示,Qwen2.5-Max 在 Arena-Hard(89.4)、LiveBench(62.2)等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o,其中数学推理能力(GSM8K 94.5 分)尤为突出。
该模型已通过阿里云 Model Studio 开放 API 接口,支持 OpenAI 兼容格式调用。开发者可通过 Python 代码直接接入,默认上下文窗口为 32K 词元,最大支持扩展至 128K。免费体验版现已在 Qwen Chat 平台上线,用户可通过网页端直接对话测试。
(QwenLM GitHub)
据员工透露,Deepseek 官网在过去数日内受到了可能来自国外的峰值近 600Gbps 的 DDoS 攻击。
DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日,这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶,另有53个国家排名进入前十。
据DeepSeek官方状态页面显示,当天其服务器经历了至少三次大规模宕机。
首次故障始于10时55分,V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务,但V3模型API经过长达3.5小时的抢修,最终在14时21分完全恢复,技术团队用中文留言「V3 api算是回来了,新年快乐~」宣告修复成功。
第二次故障于16时07分爆发,波及网页端和API服务的全局访问。经过两次修复尝试后,系统在16时43分恢复正常运行。
当晚20时16分,平台出现第三次服务异常。此次故障主要表现为账户系统崩溃,导致用户无法登录或注册。虽然20时55分聊天服务率先恢复,但截至21时11分,账户系统仍存在随机验证失败问题。
DeepSeek官方回应称,这些波动主要由于用户访问量激增所致。截至发稿,DeepSeek 官网服务仍有随机请求失败现象。
——————
业内人士分析认为,DeepSeek的爆火源于其创新性的技术突破和开放共享的商业策略。其最新发布的R1模型在数学、推理等领域已达到甚至超越OpenAI的o1水平,但训练成本仅为后者的3%。更重要的是,DeepSeek选择向所有用户免费开放这一顶级模型,而竞争对手OpenAI的类似功能则需要每月20美元的会员订阅。
DeepSeek的爆火也引发了市场动荡。据报道,在1月27日Deepseek在App Store登顶后,英伟达公司股票盘前价格暴跌近18%。Scale AI执行长Alexandr Wang在CNBC的采访中暗示,DeepSeek实际拥有约5万个NVIDIA H100,但因为美国出口管制而无法公开谈论。
因 DeepSeek V3 模型性能可能超越还未发布的 Llama 4,据报Meta已成立四个专门研究小组来研究DeepSeek的工作原理。Meta创始人扎克伯格也宣布将在2025年投入超600亿美元加大对人工智能的投入。
AI专家、DeepMind联合创始人Yann LeCun则表示,DeepSeek的成功表明「开源模型正在超越专有模型」,预示着AI行业格局可能面临重大变革。
(综合媒体报道)
OpenAI 发布了 Operator,这是一款 ChatGPT 的研究预览版,可以作为用户的代理工具完成重复性任务。这项功能将率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。
Operator 依托全新的 Computer-Using Agent(CUA)模型,结合 GPT-4o 的视觉能力与强化学习驱动的推理能力,可与图形用户界面(GUI)交互,实现包括表单填写、订购杂货、制作表情包等任务的自动化处理。
与 ChatGPT 之前的网络浏览功能不同,Operator 旨在从头到尾完成任务,而无需中途过多用户输入。
此外, OpenAI CEO Sam Altman 还宣布, ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。
(综合 AGI Hunt,APPSO)
Operator 依托全新的 Computer-Using Agent(CUA)模型,结合 GPT-4o 的视觉能力与强化学习驱动的推理能力,可与图形用户界面(GUI)交互,实现包括表单填写、订购杂货、制作表情包等任务的自动化处理。
与 ChatGPT 之前的网络浏览功能不同,Operator 旨在从头到尾完成任务,而无需中途过多用户输入。
此外, OpenAI CEO Sam Altman 还宣布, ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。
(综合 AGI Hunt,APPSO)
2025 年 1 月 20 日,DeepSeek AI 正式发布推理模型 DeepSeek-R1,该模型在数学、代码和推理等多个领域达到前沿水平,成为世界首个在多个基准测试上对标 OpenAI o1 正式版的开源模型。
DeepSeek R1 采用混合专家架构,总参数量达 671B,每个词元激活 37B 参数。模型在推理能力测试中表现卓越:在 AIME 2024 数学竞赛中达到 79.8% 的通过率,超过 OpenAI o1-1217;在 MATH-500 基准测试中取得 97.3% 的成绩,达到了目前最优水平。在代码竞赛平台 Codeforces 上,模型获得 2029 Elo 评分,超越 96.3% 的人类参赛者。
值得一提的是,DeepSeek R1 同步开源了 6 个蒸馏小模型,基于 Qwen 和 Llama 系列,涵盖 1.5B 至 70B 不同规模。其中,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 等多个重要任务上超越了 OpenAI o1-mini。
遵循 MIT License 协议,DeepSeek R1 允许商用,且明确开放通过模型输出蒸馏训练其他模型。目前官方已在 Hugging Face 平台开源全部模型权重。API 服务定价为:每百万输入词元缓存命中 1 元、未命中 4 元,每百万输出词元 16 元。
DeepSeek 官网和应用同步更新,用户开启「深度思考」模式即可直接调用最新版 DeepSeek-R1。该模型最大亮点是开放了思维链输出,通过设置 model='deepseek-reasoner' 即可在 API 调用中获取。
(DeepSeek)
英伟达 CEO 黄仁勋于 1 月 7 日在 CES 2025 发表主题演讲。
RTX 50 系列
基于 Blackwell 架构的 RTX 50 系列显卡正式发布。旗舰型号 RTX 5090 配备 920 亿晶体管,AI 算力达到 4000 TOPS,光追性能达到 380 RT TFLOPS。在最新的 DLSS 4 加持下,游戏性能较上一代提升显著。
RTX 50 系列完整价格如下:
- RTX 5090:1999 美元
- RTX 5080:999 美元
- RTX 5070 Ti:749 美元
- RTX 5070:549 美元
英伟达声称,RTX 5070 在开启 DLSS 4 后能达到接近 RTX 4090 的游戏性能表现。
Grace Blackwell
此次发布的 GB200 NVLink 72 系统整合了 72 个 Blackwell GPU,提供 1.4 ExaFLOPS 算力。系统配备 14TB 内存,内存带宽达到 1.2 PB/s。黄仁勋表示,该产品已在全球 45 家工厂投产,支持多达 200 种配置方案。
与上一代相比,Blackwell 架构每瓦性能提升 4 倍,每美元性能提升 3 倍。这一进步将显著降低企业级 AI 模型的训练和推理成本。
Project DIGITS
Project DIGITS 是英伟达首次推出的桌面级 AI 超算产品。搭载 GB10 Grace Blackwell 芯片,配备 128GB 统一内存和最高 4TB NVMe 存储。单机可支持 2000 亿参数模型训练,两台串联可支持 4050 亿参数规模。该产品将于今年 5 月上市,起售价 3000 美元。
Cosmos
英伟达发布开源世界基础模型平台 Cosmos,该平台经过 2000 万小时视频数据训练,专注于物理世界规律的理解和预测。平台提供 Nano、Super 和 Ultra 三个系列模型,参数规模从 40 亿到 140 亿不等。
目前已有包括 Waymo、Uber 等自动驾驶公司开始采用 Cosmos 平台。英伟达采用开放许可模式,允许企业进行商业应用。
在演讲中,黄仁勋强调,「没有生成式 AI,我们无法走到今天这一步」。
黄仁勋强调,AI 正经历预训练、后训练和测试时间三个阶段的演进。英伟达正试图重新定义计算产业的基础架构。从游戏显卡到 AI 训练芯片,从数据中心超算到个人 AI 终端,通过硬件和软件的协同创新,在 AI 发展的每个阶段都确立主导地位。
(综合媒体报道)
2025 年国家补贴产品或实施序列号地域管控
据本频信源,2025 年参与国家补贴的产品将全部纳入全国统一的序列号管理系统,产品序列号将被限制在购买地使用,不得跨省销售。该政策主要通过销售方扫码入库和购买方银联刷卡识别最终销售地点来实现管控。
对于电商平台来说,要想享受当地的国家补贴政策,必须在销售地设有实体分公司并进行纳税登记。这意味着如果电商平台在某省份没有设立实体分公司,就无法享受该省的国家补贴政策。这一规定或将终结 2024 年商品可无限制全国销售的局面。
同时,国补还对线下渠道提出了具体要求。参与补贴项目的线下门店必须达到年销售额 300 万元的规模门槛,建立完整的财务管理制度和对公结算账户,获得品牌企业正式授权,并在违法失信名单核查中无不良记录。门店需配合商务、财政、审计、市场监督、税务等部门的监督检查工作。
2024 年末,国家发改委宣布 2025 年将扩大消费品补贴范围,首次将手机、平板电脑、智能手表手环等 3 类数码产品纳入国家补贴范围。
本消息暂时无法立即得到交叉验证。
据本频信源,2025 年参与国家补贴的产品将全部纳入全国统一的序列号管理系统,产品序列号将被限制在购买地使用,不得跨省销售。该政策主要通过销售方扫码入库和购买方银联刷卡识别最终销售地点来实现管控。
对于电商平台来说,要想享受当地的国家补贴政策,必须在销售地设有实体分公司并进行纳税登记。这意味着如果电商平台在某省份没有设立实体分公司,就无法享受该省的国家补贴政策。这一规定或将终结 2024 年商品可无限制全国销售的局面。
同时,国补还对线下渠道提出了具体要求。参与补贴项目的线下门店必须达到年销售额 300 万元的规模门槛,建立完整的财务管理制度和对公结算账户,获得品牌企业正式授权,并在违法失信名单核查中无不良记录。门店需配合商务、财政、审计、市场监督、税务等部门的监督检查工作。
2024 年末,国家发改委宣布 2025 年将扩大消费品补贴范围,首次将手机、平板电脑、智能手表手环等 3 类数码产品纳入国家补贴范围。
本消息暂时无法立即得到交叉验证。
德国多处机场边检系统陷入大规模宕机
2025 年 1 月 3 日,德国联邦警察局的边检信息系统出现全国性技术故障,导致多个主要机场的出入境边检工作受到严重影响。此次故障从当地时间下午 2 时(北京时间晚上 9 时)开始,持续数小时后于晚间得到修复。
受影响最严重的是来自非申根区国家的旅客。由于系统故障,联邦警察不得不手动核查护照和签证,导致边检通道大排长龙、通关时间延长。在杜塞尔多夫机场,部分旅客等候时间超过 2 小时。法兰克福机场、柏林勃兰登堡机场及慕尼黑机场虽然受到影响但仍能维持基本运转。
联邦警察工会表示,此次故障暴露出警方信息系统的老化问题。该工会此前已多次警告系统存在隐患,并向内政部申请 1.5 亿欧元(约合人民币 11.3 亿元)的现代化改造经费,但未获批准。
联邦刑事警察局 (BKA) 表示,此次受影响的是警方信息网络系统 Inpol,该系统是联邦和各州警察部门信息交换的核心平台。目前相关部门正在调查故障原因,并将采取措施防止类似事件再次发生。
(综合德国之声、法兰克福汇报)
2025 年 1 月 3 日,德国联邦警察局的边检信息系统出现全国性技术故障,导致多个主要机场的出入境边检工作受到严重影响。此次故障从当地时间下午 2 时(北京时间晚上 9 时)开始,持续数小时后于晚间得到修复。
受影响最严重的是来自非申根区国家的旅客。由于系统故障,联邦警察不得不手动核查护照和签证,导致边检通道大排长龙、通关时间延长。在杜塞尔多夫机场,部分旅客等候时间超过 2 小时。法兰克福机场、柏林勃兰登堡机场及慕尼黑机场虽然受到影响但仍能维持基本运转。
联邦警察工会表示,此次故障暴露出警方信息系统的老化问题。该工会此前已多次警告系统存在隐患,并向内政部申请 1.5 亿欧元(约合人民币 11.3 亿元)的现代化改造经费,但未获批准。
联邦刑事警察局 (BKA) 表示,此次受影响的是警方信息网络系统 Inpol,该系统是联邦和各州警察部门信息交换的核心平台。目前相关部门正在调查故障原因,并将采取措施防止类似事件再次发生。
(综合德国之声、法兰克福汇报)
2024 年 12 月 27 日,OpenAI 发布博客宣布,其董事会正在评估公司结构,以确保通用人工智能 (Artificial General Intelligence, AGI) 能够造福全人类。OpenAI 计划通过调整其营利与非营利结构,进一步推动其使命的实现。
OpenAI 成立于 2015 年,最初是一个非营利研究实验室,致力于推动数字智能的发展,不受资金回报需求的限制。随着人工智能 (Artificial Intelligence, AI) 技术的进步,尤其是大语言模型 (Large Language Model, LLM) 的发展,OpenAI 意识到需要更多的计算资源和资本来继续其使命。因此,2019 年 OpenAI 成立了一个营利性公司,由非营利组织控制,旨在通过营利性公司的成功来支持非营利组织的长期发展。
OpenAI 的董事会提出了三个主要目标:
一是选择最适合长期使命的非营利/营利结构,计划将其现有的营利性公司转变为特拉华州公共利益公司 (Public Benefit Corporation, PBC),以平衡股东利益、利益相关者利益和公共利益;
二是确保非营利组织的可持续发展,通过营利性公司的成功,非营利组织将获得更多的资源,成为历史上资源最丰富的非营利组织之一;
三是让每个部门各司其职,PBC 将负责 OpenAI 的运营和业务,而非营利组织将专注于医疗、教育和科学等慈善事业。
OpenAI 计划在 2025 年进一步转型,成为一家可持续的企业。通过将营利性公司转变为 PBC,OpenAI 将能够以常规条款筹集更多资本,同时确保非营利组织获得充足的资源。PBC 将负责 OpenAI 的运营,而非营利组织将专注于慈善事业。
部分网友对 OpenAI 的营利性转变表示质疑,认为这可能与其最初的「非营利」初衷相悖。此外,OpenAI 的创始人之一 Elon Musk 曾因公司转向营利性而提起诉讼,进一步加剧了外界的质疑。
(OpenAI)
当地时间 2024 年 12 月 26 日下午,OpenAI 的 ChatGPT、API 和 Sora 服务出现大面积中断,影响了全球用户。此次中断报告于美国东部时间下午 1:30 左右开始激增,用户无法正常访问或使用这些服务。Downdetector.com 上报告了超过 50,000 起 ChatGPT 服务中断事件,用户尝试使用 ChatGPT 时收到「内部服务器错误」的消息。
OpenAI 在美国东部时间下午 4:05 发布更新,表示正在修复问题,问题由一个未具名的互联网服务提供商引起。截至美国东部时间下午 7:05,ChatGPT 正在恢复,但聊天记录仍未加载,API 和 Sora 已恢复运行。OpenAI 于太平洋标准时间下午 6:04 更新称,ChatGPT 已基本恢复,他们将继续致力于全面修复。
故障原因可能与微软 Azure 数据中心有关。作为 OpenAI 的独家云服务提供商,微软 Azure 当天报告了数据中心出现「电源」问题,这可能是导致 OpenAI 服务中断的原因。The Verge 报道称,南美中部数据中心出现电力故障,影响了多项服务。
这是 ChatGPT 本月第二次中断,此前两周曾发生过一次约 6 小时的中断。
(综合媒体报道)
2024 年 12 月 26 日,DeepSeek AI 正式发布新一代混合专家模型 DeepSeek V3。该模型已在官网 chat.deepseek.com 上线,API 服务同步更新且接口配置无需改动。
DeepSeek V3 采用了混合专家 (MoE) 架构,总参数量达 671B,其中每个词元激活 37B 参数。在预训练阶段共消耗超过 14.8 万亿高质量词元。在三重评测中,该模型展现了强大实力:在美国数学竞赛和全国高中数学联赛上超越所有已知模型;在算法类代码场景远超其他普通模型;特别是在知识类评测上,DeepSeek V3 已经接近目前最强的 Claude-3.5-Sonnet-1022。
DeepSeek V3 在教育知识评测 MMLU 上达到 88.5,显著超越其他开源模型;在代码竞赛基准 Codeforces 上位列前 51.6%,大幅领先业内表现;在数学能力评测 MATH-500 上取得 90.2 的成绩,创下了非 o1 类语言模型的新记录。特别值得一提的是,该模型在 AlpacaEval 2.0 上获得 70.0 的成绩,这一指标是评估模型开放式对话能力的重要标准。
——————
DeepSeek V3 采用了一种无需额外损失函数的负载均衡策略,并设置了多次词元预测的训练目标。这两项创新分别解决了混合专家模型中的两大难题:负载均衡与推理速度。
在工程实现层面,DeepSeek V3 首次在超大规模模型上验证了 FP8 混合精度训练的可行性,并通过算法、框架和硬件的协同设计,几乎完全消除了跨节点通信的额外开销。
在部署方面,DeepSeek V3 原生采用 FP8 训练并开源权重。目前 SGLang 和 LMDeploy 已支持原生 FP8 推理,TensorRT-LLM 和 MindIE 则支持 BF16 推理。开发者可通过 Hugging Face 获取模型权重和部署工具。
价格方面,从即日起至 2025 年 2 月 8 日,API 服务将维持优惠价格:每百万输入词元 0.1 元(缓存命中)或 1 元(缓存未命中),每百万输出词元 2 元。优惠期结束后,价格将调整为每百万输入词元 0.5 元(缓存命中)或 2 元(缓存未命中),每百万输出词元 8 元。除了 API 服务外,DeepSeek V3 还提供了完整的开源授权,支持商业化应用。
(综合 DeepSeek AI 官方微信公众号,DeepSeek V3 技术报告,GitHub Page)
今年 6 月,小红书曾推出 AI 功能「达芬奇」,以一种试验性方式上线。但「达芬奇」自 7 月后再无更新,仿佛被遗忘。然而,小红书日前推出了一款新 AI 搜索产品——「点点」,已上线各大应用商店。
「点点」专注于生活场景搜索,由上海生动诗章科技有限公司开发,法人为小红书产品经理魏旷,其主要功能包括:定位用户位置,推送相关旅游、美食信息;根据需求总结全网信息,尤其是小红书内容;用户可拍照提问,获取视频回复。
此外,小红书正在其平台内小范围测试新功能「问『点点』」,用户可在搜索栏中直接跳转至「点点」获取 AI 生成的答案。这表明小红书正在逐步将 AI 功能巧妙地融入到现有内容生态中,以增强用户体验,而非颠覆,从而潜移默化地引导用户适应 AI 的辅助作用。小红书似乎正小心翼翼地增强其平台功能,确保用户逐渐接受 AI 增强的内容创作和搜索体验。
(特工宇宙)
OpenAI 于 12 月 21 日发布了新一代推理引擎 o3 及其轻量版 o3-mini。新模型在数学、编程等多个领域展现出惊人的能力提升,但也因其高昂的计算成本引发关注。
o3 在编程能力上取得重大突破。在著名编程竞赛平台 CodeForces 上获得 2727 分,位列全球第 175 名,超过了 OpenAI 首席科学家 2665 分的历史最高分。在软件工程基准 SWE-bench Verified 测试中,o3 准确率达到 71.7%,比前代 o1 模型高出约 20 个百分点。
在数学领域,o3 在美国数学竞赛 AIME 2024 中取得 96.7% 的准确率,仅错一题。在由 60 多位顶尖数学家共同开发的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题,远超此前其他模型不足 2% 的表现。OpenAI 研究副总裁 Mark Chen 表示,即使专业数学家解决其中一道题目也需要数小时到数天时间。
值得关注的是,o3 在 ARC-AGI 基准测试中首次超越人类水平。在高计算资源配置下,o3 达到 87.5% 的准确率,超过了人类 85% 的基准线。然而,ARC-AGI 创始人 François Chollet 指出,o3 在许多简单任务上仍表现不佳,这表明其与真正的通用人工智能(AGI)仍有本质差距。
o3 的高性能背后是极高的计算成本。据 Keras 之父 François Chollet 披露,o3 在低计算量模式下每个任务需要花费约 20 美元,而在高计算量模式下单个任务成本可达数千美元。相比之下,o1 的成本要低得多。
OpenAI 同时推出了面向普及的轻量版本 o3-mini,支持低、中、高三种推理时间选项。北大校友、OpenAI 研究科学家任泓宇展示了 o3-mini 在代码生成和科学问答等任务上的出色表现。o3-mini 预计将于 2025 年 1 月底向公众开放。
目前 o3 和 o3-mini 仍处于安全测试阶段,仅向特定研究人员开放。感兴趣的用户可通过 OpenAI 官网申请早期测试资格。OpenAI CEO Sam Altman 表示,公司计划在明年初正式推出这两款模型。
(综合媒体报道)