一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

11:26 · 2025年2月19日 · 周三

一个小站的自留地

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain…

马斯克旗下 xAI 发布 Grok 3 模型

xAI 正式发布新一代大语言模型 Grok 3，该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练，计算量是 Grok 2 的 10 倍，成为目前已知训练算力最大的模型之一。

Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本，均支持推理模式。其中，Grok 3 mini Reasoning 已完成训练，Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。

性能方面，Grok 3 在数学（AIME 2024）、科学（GPQA）和编程（LCB）等多项基准测试中表现出色，超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型；并以 1402 分登顶 LMSYS 榜单，成为首个突破 1400 分的模型。

功能方面，Grok 3 的推出同时包含以下新功能：
- Think 模式：展示完整推理链条
- Big Brain 模式：调用额外算力解决复杂问题
- DeepSearch：实现多源信息交叉验证

价格方面，X平台Premium+订阅费用从22美元大幅上调至40美元，新增的SuperGrok独立订阅服务定价30美元，提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。

语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露，延迟主要源于方言口音识别的准确度问题。

提前获得内测资格的知名AI研究员Karpathy指出，该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平，但在伦理敏感问题上仍显保守，拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型，并持续优化当前系统的逻辑一致性。

（综合量子位、机器之心、CNBC 报道）

11:09 · 2025年2月16日 · 周日

一个小站的自留地

xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。

此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。

此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中，该模型展现出处理复杂跨学科问题的卓越能力。

10:25 · 2025年2月14日 · 周五

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

百度今日官宣，将在未来几个月中陆续推出文心大模型 4.5 系列，并于 6 月 30 日起正式开源。

早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费，所有 PC 端和 APP 端用户均可体验文心系列最新模型，同时上线深度搜索功能。

此前 The Information 报道，即使苹果国行 AI 确定和阿里合作，但和百度的合作仍然会继续。

百度正在为苹果开发基于 AI 的搜索功能，除了能处理图像和文字，也将提升中文版 Siri 的体验，成为国行版 Apple Intelligence 的一部分。

09:02 · 2025年2月13日 · 周四

一个小站的自留地

OpenAI 推出深度研究智能体 Deep Research 北京时间 2 月 3 日，OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」，该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放，月均查询上限为 100 次，将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。 Deep Research 基于 o3 模型构建，针对网页浏览和 Python 数据分析进行优化，具备三项核心能力： - 支持解析互联网文本、图像和…

OpenAI 公布 GPT-4.5 与 GPT-5 路线图

OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。

- GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布，其技术将融入 GPT-5
- 未来用户无需手动选择模型，新系统将根据用户提示自动调用最佳模型组合，具备动态调整思考深度等能力。

Pro 用户即日起可在全平台使用深度研究功能，Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次（增加 7 倍）。

同步发布的最新《模型规范白皮书》则披露，OpenAI 将采用 CC0 协议开放模型行为准则框架；建立三级优先级指令链（OpenAI 预设 > 开发者规则 > 用户指令）；强化事实核查机制（去年 5 月至今，模型规范遵循度提升 41%）以及新增「知识自由保障条款与进度评估体系」等。

另外，OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。

（The Verge）

11:31 · 2025年2月11日 · 周二

一个小站的自留地

Claude 网页版现在支持自定义回复语气，除预设回复语气外，还可根据用户描述生成自定义回复语气预设。

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。

Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。

此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为替代方案，Anthropic采用知识蒸馏技术，将未发布的Opus模型能力迁移至更小规模的架构。

18:39 · 2025年2月10日 · 周一

一个小站的自留地

Apple 2024 秋季发布会：iPhone 16 系列、Apple Watch Series 10、AirPods 4 重磅亮相 2024 年 9 月 10 日凌晨，Apple 如期举行了备受期待的秋季发布会，主题为「It's Glowtime」。本次发布会上，Apple 推出了 iPhone 16 系列、Apple Watch Series 10、AirPods 4 等多款新品。虽然硬件更新并未带来太多惊喜，但围绕 AI 的发展方向和应用引发了广泛讨论。 iPhone 16 系列：全新相机控制键与…

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。

此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。

（Apple Developer）

12:09 · 2025年2月7日 · 周五

一个小站的自留地

GitHub Copilot Chat 支持 GPT-4o 64K 上下文窗口 GitHub 宣布，Copilot Chat 在其官方网站、移动应用、命令行工具及支持的集成开发环境中，已支持 OpenAI GPT-4o 的 64K 词元上下文窗口。此次升级将为用户处理大型文件和代码仓库时提供更好的响应体验。 GitHub 表示，所有 Copilot 用户无需任何操作即可使用此功能。新版本将帮助 Copilot 在执行技能时检索更多信息，从而提供更贴合上下文的回应。值得一提的是，Visual Studio…

GitHub Copilot 发布代理模式预览版

GitHub 宣布为 Copilot 引入多项重大更新，包括代理模式（Agent Mode）预览版、Copilot Edits 正式版，以及首度公开研发代号为 Project Padawan 的自主代理功能。

代理模式现已在 VS Code Insiders 版本开放预览。该功能支持多文件上下文感知，可自主迭代代码、识别运行时错误并自动修复，还能通过终端命令建议实现环境配置。开发者只需通过自然语言描述需求（例如「构建马拉松训练追踪 Web 应用」），Copilot 即可自动推断并执行必要子任务，直至完成主要目标。用户需在 Copilot Edits 面板切换至代理模式开启此功能。

Copilot Edits 多文件编辑功能结束预览，正式登陆 VS Code。该功能采用双模型架构：基础模型（可选 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 或 Google Gemini 2.0 Flash）负责生成初始编辑建议，推测解码端点则负责快速应用修改。用户可通过语音交互实时审查跨文件改动，并与测试视图联动验证单元测试结果。Visual Studio 2022 版本已同步开启预览。

Project Padawan 作为未来重点功能首次亮相。该自主代理可将 GitHub 问题直接转化为完整测试的 PR，自动分配人工审核并在云端沙盒执行代码克隆、环境配置、构建测试等全流程。官方承诺将提供扩展接口，支持合作伙伴接入该 AI 原生工作流。

本次更新同步推出三项预览功能：支持保存复用提示模板提升响应一致性；通过自定义指令个性化聊天响应；集成自动化代码审查能力。开发者可通过 VS Code Insiders 版本提前体验部分新特性。

（GitHub 官方博客）

12:01 · 2025年2月7日 · 周五

Cloudflare R2 及其关联产品发生全球性服务中断

2025 年 2 月 6 日 16 时 14 分（北京时间），Cloudflare 对象存储服务 R2 突发全球性中断，引发包括 Stream 视频传输、Images 图片管理、Vectorize AI 索引等 9 项核心服务的连锁故障，持续 59 分钟。事故期间，R2 接口完全瘫痪，用户遭遇 100% 的 HTTP 500 错误响应，连带导致 Dify.AI 等第三方平台文件系统停摆，Docker Hub 镜像拉取异常。

事故根源系人工操作失误——安全团队处理钓鱼网站举报时，误将生产环境 R2 网关服务禁用。该操作触发 API 前端服务崩溃，但底层存储架构保持完整，未造成数据丢失。恢复过程中，运维团队因管理工具依赖 R2 服务而受阻，最终通过底层系统操作完成服务重启。

Cloudflare 事后承诺将改进内部账户标记机制，实施双人审批制度，并建立产品禁用操作防护网。

（Cloudflare Blog）

16:25 · 2025年2月5日 · 周三

一个小站的自留地

Google 在 Google AI Studio 中上线了 Gemini 2.0 Flash Thinking，这是一个增强了推理能力的模型，可以像 OpenAI 的 o1 模型一样展现思考过程。有网友体验表示，该模型的智力和 OpenAI 的 o1 仍有较大差距，但得益于这是一个 Flash 模型，推理速度较 o1 有显著优势。

谷歌发布 Gemini 2.0 系列模型，支持 200 万 tokens 上下文窗口

2025 年 2 月 6 日，谷歌正式发布 Gemini 2.0 系列大语言模型，包含 Gemini 2.0 Pro（实验版）、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 三个版本。该系列模型在编码、复杂指令处理和长文本理解能力上均有显著提升，最高支持 200 万 tokens 上下文窗口。

各模型亮点一览：

- Gemini 2.0 Pro：支持 200 万 tokens 上下文窗口，在 MMLU Pro 评测中以 86.5 分超越 DeepSeek-R1（85.3 分），开发者每日可免费调用 50 次
- Gemini 2.0 Flash：正式版上线，100 万 tokens 上下文窗口，支持多模态输入，未来将开放图像生成功能
- Gemini 2.0 Flash-Lite：输入成本低至每百万 tokens 0.35 美元，处理 4 万张图片描述任务总成本不足 1 美元

目前，正式版模型已在 Google AI Studio 和 Vertex AI 开放 API 调用；Gemini Advanced 用户可通过应用端直接访问 Pro 实验版。而图像生成与文本转语音功能计划在未来数月上线。

（综合媒体报道）

10:42 · 2025年2月3日 · 周一

一个小站的自留地

OpenAI o3-mini 现已可用 ChatGPT Plus、Team 和 Pro 用户从今天开始可以访问 OpenAI o3-mini，企业访问权限将在一周内推出。另外，目前o3-mini已经可以在 Github Copilot 中使用。而国内较大的大模型推理服务商硅基流动则宣布正式上线 Deepseek V3 和 R1 模型 API，填补 Deepseek 近期官方 API 服务不稳定的缺口。（托管于华为云，定价和 Deepseek 官网相同，但推理精度有降低）截至发稿，Deepseek…

OpenAI 推出深度研究智能体 Deep Research

北京时间 2 月 3 日，OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」，该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放，月均查询上限为 100 次，将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。

Deep Research 基于 o3 模型构建，针对网页浏览和 Python 数据分析进行优化，具备三项核心能力：
- 支持解析互联网文本、图像和 PDF 文件，并根据获取信息动态调整策略；
- 可浏览用户上传文件并生成可视化图表；
- 提供完整引用来源和思路摘要，便于验证信息可靠性。

08:28 · 2025年2月1日 · 周六

一个小站的自留地

OpenAI 发布了 Operator，这是一款 ChatGPT 的研究预览版，可以作为用户的代理工具完成重复性任务。这项功能将率先向订阅 200 美元 Pro 计划的美国用户开放，随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。 Operator 依托全新的 Computer-Using Agent（CUA）模型，结合 GPT-4o 的视觉能力与强化学习驱动的推理能力，可与图形用户界面（GUI）交互，实现包括表单填写、订购杂货、制作表情包等任务的自动化处理。与 ChatGPT…

OpenAI o3-mini 现已可用

ChatGPT Plus、Team 和 Pro 用户从今天开始可以访问 OpenAI o3-mini，企业访问权限将在一周内推出。

另外，目前o3-mini已经可以在 Github Copilot 中使用。

而国内较大的大模型推理服务商硅基流动则宣布正式上线 Deepseek V3 和 R1 模型 API，填补 Deepseek 近期官方 API 服务不稳定的缺口。（托管于华为云，定价和 Deepseek 官网相同，但推理精度有降低）

截至发稿，Deepseek 官方 API 平台仍无法打开，API 调用成功率，特别是海外地区的成功率有明显降低。

12:35 · 2025年1月31日 · 周五

一个小站的自留地

OpenAI 发布了 Operator，这是一款 ChatGPT 的研究预览版，可以作为用户的代理工具完成重复性任务。这项功能将率先向订阅 200 美元 Pro 计划的美国用户开放，随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。 Operator 依托全新的 Computer-Using Agent（CUA）模型，结合 GPT-4o 的视觉能力与强化学习驱动的推理能力，可与图形用户界面（GUI）交互，实现包括表单填写、订购杂货、制作表情包等任务的自动化处理。与 ChatGPT…

ChatGPT 网页端前端代码显示，OpenAI 计划对其 ChatGPT Plus 计划进行新用户促销。

这一促销可能会在未来定向推送给近期因 Deepseek 爆火而取消订阅 ChatGPT 的用户。

21:52 · 2025年1月30日 · 周四

一个小站的自留地

阿里云发布新一代音频语言模型Qwen2-Audio 阿里云Qwen团队近日官宣了最新的大规模音频语言模型Qwen2-Audio。该模型在音频理解和交互能力方面取得显著进展，为语音助手、音频内容分析等应用领域开辟了新的可能性。 Qwen2-Audio的主要特点和创新如下： 1. 双模式交互：支持语音聊天和音频分析两种模式。在语音聊天模式下，用户可以直接与模型进行语音对话；在音频分析模式下，用户可以上传音频文件进行转录和分析。模型能够智能识别用户意图，在两种模式间无缝切换，无需用户手动操作。 2. 多样化音频处理能力：…

阿里云发布 Qwen2.5-Max 模型，称其性能超越 DeepSeek V3 和 GPT-4o

阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型，该模型基于混合专家架构（Mixture-of-Experts, MoE），参数规模超 200 亿，训练数据量达 20 万亿词元。据官方基准测试显示，Qwen2.5-Max 在 Arena-Hard（89.4）、LiveBench（62.2）等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o，其中数学推理能力（GSM8K 94.5 分）尤为突出。

该模型已通过阿里云 Model Studio 开放 API 接口，支持 OpenAI 兼容格式调用。开发者可通过 Python 代码直接接入，默认上下文窗口为 32K 词元，最大支持扩展至 128K。免费体验版现已在 Qwen Chat 平台上线，用户可通过网页端直接对话测试。

（QwenLM GitHub）

00:34 · 2025年1月28日 · 周二

一个小站的自留地

DeepSeek全球爆火，一日内多次服务宕机 DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日，这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶，另有53个国家排名进入前十。据DeepSeek官方状态页面显示，当天其服务器经历了至少三次大规模宕机。首次故障始于10时55分，V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务，但V3模型API经过长达3.5小时的抢修，最终在14时21分完全恢复，技术团队用中文留言「V3 …

目前 DeepSeek 在状态页面公告，「近期DeepSeek线上服务受到大规模恶意攻击，为持续提供服务，暂时限制了+86手机号以外的注册方式，已注册用户可以正常登录。」

据员工透露，Deepseek 官网在过去数日内受到了可能来自国外的峰值近 600Gbps 的 DDoS 攻击。

21:08 · 2025年1月27日 · 周一

一个小站的自留地

DeepSeek R1 正式发布 2025 年 1 月 20 日，DeepSeek AI 正式发布推理模型 DeepSeek-R1，该模型在数学、代码和推理等多个领域达到前沿水平，成为世界首个在多个基准测试上对标 OpenAI o1 正式版的开源模型。 DeepSeek R1 采用混合专家架构，总参数量达 671B，每个词元激活 37B 参数。模型在推理能力测试中表现卓越：在 AIME 2024 数学竞赛中达到 79.8% 的通过率，超过 OpenAI o1-1217；在 MATH-500 基准测试中取得…

DeepSeek全球爆火，一日内多次服务宕机

DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日，这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶，另有53个国家排名进入前十。

据DeepSeek官方状态页面显示，当天其服务器经历了至少三次大规模宕机。

首次故障始于10时55分，V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务，但V3模型API经过长达3.5小时的抢修，最终在14时21分完全恢复，技术团队用中文留言「V3 api算是回来了，新年快乐~」宣告修复成功。

第二次故障于16时07分爆发，波及网页端和API服务的全局访问。经过两次修复尝试后，系统在16时43分恢复正常运行。

当晚20时16分，平台出现第三次服务异常。此次故障主要表现为账户系统崩溃，导致用户无法登录或注册。虽然20时55分聊天服务率先恢复，但截至21时11分，账户系统仍存在随机验证失败问题。

DeepSeek官方回应称，这些波动主要由于用户访问量激增所致。截至发稿，DeepSeek 官网服务仍有随机请求失败现象。

——————

业内人士分析认为，DeepSeek的爆火源于其创新性的技术突破和开放共享的商业策略。其最新发布的R1模型在数学、推理等领域已达到甚至超越OpenAI的o1水平，但训练成本仅为后者的3%。更重要的是，DeepSeek选择向所有用户免费开放这一顶级模型，而竞争对手OpenAI的类似功能则需要每月20美元的会员订阅。

DeepSeek的爆火也引发了市场动荡。据报道，在1月27日Deepseek在App Store登顶后，英伟达公司股票盘前价格暴跌近18%。Scale AI执行长Alexandr Wang在CNBC的采访中暗示，DeepSeek实际拥有约5万个NVIDIA H100，但因为美国出口管制而无法公开谈论。

因 DeepSeek V3 模型性能可能超越还未发布的 Llama 4，据报Meta已成立四个专门研究小组来研究DeepSeek的工作原理。Meta创始人扎克伯格也宣布将在2025年投入超600亿美元加大对人工智能的投入。

AI专家、DeepMind联合创始人Yann LeCun则表示，DeepSeek的成功表明「开源模型正在超越专有模型」，预示着AI行业格局可能面临重大变革。

（综合媒体报道）

09:15 · 2025年1月24日 · 周五

OpenAI 发布了 Operator，这是一款 ChatGPT 的研究预览版，可以作为用户的代理工具完成重复性任务。这项功能将率先向订阅 200 美元 Pro 计划的美国用户开放，随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。

Operator 依托全新的 Computer-Using Agent（CUA）模型，结合 GPT-4o 的视觉能力与强化学习驱动的推理能力，可与图形用户界面（GUI）交互，实现包括表单填写、订购杂货、制作表情包等任务的自动化处理。

与 ChatGPT 之前的网络浏览功能不同，Operator 旨在从头到尾完成任务，而无需中途过多用户输入。

此外， OpenAI CEO Sam Altman 还宣布， ChatGPT 用户不仅将获得 o3-mini 的免费试用机会，Plus 付费订阅会员还将享有更多使用额度。

（综合 AGI Hunt，APPSO）

20:55 · 2025年1月20日 · 周一

一个小站的自留地

DeepSeek V3 开源发布，全部权重免费可商用 2024 年 12 月 26 日，DeepSeek AI 正式发布新一代混合专家模型 DeepSeek V3。该模型已在官网 chat.deepseek.com 上线，API 服务同步更新且接口配置无需改动。 DeepSeek V3 采用了混合专家 (MoE) 架构，总参数量达 671B，其中每个词元激活 37B 参数。在预训练阶段共消耗超过 14.8 万亿高质量词元。在三重评测中，该模型展现了强大实力：在美国数学竞赛和全国高中数学联赛上超越所有已…

DeepSeek R1 正式发布

2025 年 1 月 20 日，DeepSeek AI 正式发布推理模型 DeepSeek-R1，该模型在数学、代码和推理等多个领域达到前沿水平，成为世界首个在多个基准测试上对标 OpenAI o1 正式版的开源模型。

DeepSeek R1 采用混合专家架构，总参数量达 671B，每个词元激活 37B 参数。模型在推理能力测试中表现卓越：在 AIME 2024 数学竞赛中达到 79.8% 的通过率，超过 OpenAI o1-1217；在 MATH-500 基准测试中取得 97.3% 的成绩，达到了目前最优水平。在代码竞赛平台 Codeforces 上，模型获得 2029 Elo 评分，超越 96.3% 的人类参赛者。

值得一提的是，DeepSeek R1 同步开源了 6 个蒸馏小模型，基于 Qwen 和 Llama 系列，涵盖 1.5B 至 70B 不同规模。其中，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 等多个重要任务上超越了 OpenAI o1-mini。

遵循 MIT License 协议，DeepSeek R1 允许商用，且明确开放通过模型输出蒸馏训练其他模型。目前官方已在 Hugging Face 平台开源全部模型权重。API 服务定价为：每百万输入词元缓存命中 1 元、未命中 4 元，每百万输出词元 16 元。

DeepSeek 官网和应用同步更新，用户开启「深度思考」模式即可直接调用最新版 DeepSeek-R1。该模型最大亮点是开放了思维链输出，通过设置 model='deepseek-reasoner' 即可在 API 调用中获取。

（DeepSeek）

01:14 · 2025年1月8日 · 周三

一个小站的自留地

英伟达 COMPUTEX 2024 主题演讲速评 NVIDIA 在此次演讲中备受关注，不仅业界对其寄予厚望，各路分析师也纷纷发表看法，希望这家 AI 芯片巨头能够推动一场真正的「新工业革命」。在此次 COMPUTEX 2024 演讲中，NVIDIA 释放了三大重要信号： 1. 生成式 AI 将引领新工业革命。 2. NVIDIA 正在构建完整的生成式 AI 生态，强化全栈实力。 3. NVIDIA 布局机器人、自动驾驶等新兴领域，抢占未来增长点。英伟达发布了下一代 GPU 架构 Black…

英伟达在 CES 2025 发表主题演讲

英伟达 CEO 黄仁勋于 1 月 7 日在 CES 2025 发表主题演讲。

RTX 50 系列

基于 Blackwell 架构的 RTX 50 系列显卡正式发布。旗舰型号 RTX 5090 配备 920 亿晶体管，AI 算力达到 4000 TOPS，光追性能达到 380 RT TFLOPS。在最新的 DLSS 4 加持下，游戏性能较上一代提升显著。

RTX 50 系列完整价格如下：
- RTX 5090：1999 美元
- RTX 5080：999 美元
- RTX 5070 Ti：749 美元
- RTX 5070：549 美元

英伟达声称，RTX 5070 在开启 DLSS 4 后能达到接近 RTX 4090 的游戏性能表现。

Grace Blackwell

此次发布的 GB200 NVLink 72 系统整合了 72 个 Blackwell GPU，提供 1.4 ExaFLOPS 算力。系统配备 14TB 内存，内存带宽达到 1.2 PB/s。黄仁勋表示，该产品已在全球 45 家工厂投产，支持多达 200 种配置方案。

与上一代相比，Blackwell 架构每瓦性能提升 4 倍，每美元性能提升 3 倍。这一进步将显著降低企业级 AI 模型的训练和推理成本。

Project DIGITS

Project DIGITS 是英伟达首次推出的桌面级 AI 超算产品。搭载 GB10 Grace Blackwell 芯片，配备 128GB 统一内存和最高 4TB NVMe 存储。单机可支持 2000 亿参数模型训练，两台串联可支持 4050 亿参数规模。该产品将于今年 5 月上市，起售价 3000 美元。

Cosmos

英伟达发布开源世界基础模型平台 Cosmos，该平台经过 2000 万小时视频数据训练，专注于物理世界规律的理解和预测。平台提供 Nano、Super 和 Ultra 三个系列模型，参数规模从 40 亿到 140 亿不等。

目前已有包括 Waymo、Uber 等自动驾驶公司开始采用 Cosmos 平台。英伟达采用开放许可模式，允许企业进行商业应用。

在演讲中，黄仁勋强调，「没有生成式 AI，我们无法走到今天这一步」。

黄仁勋强调，AI 正经历预训练、后训练和测试时间三个阶段的演进。英伟达正试图重新定义计算产业的基础架构。从游戏显卡到 AI 训练芯片，从数据中心超算到个人 AI 终端，通过硬件和软件的协同创新，在 AI 发展的每个阶段都确立主导地位。

（综合媒体报道）

11:29 · 2025年1月7日 · 周二

2025 年国家补贴产品或实施序列号地域管控

据本频信源，2025 年参与国家补贴的产品将全部纳入全国统一的序列号管理系统，产品序列号将被限制在购买地使用，不得跨省销售。该政策主要通过销售方扫码入库和购买方银联刷卡识别最终销售地点来实现管控。

对于电商平台来说，要想享受当地的国家补贴政策，必须在销售地设有实体分公司并进行纳税登记。这意味着如果电商平台在某省份没有设立实体分公司，就无法享受该省的国家补贴政策。这一规定或将终结 2024 年商品可无限制全国销售的局面。

同时，国补还对线下渠道提出了具体要求。参与补贴项目的线下门店必须达到年销售额 300 万元的规模门槛，建立完整的财务管理制度和对公结算账户，获得品牌企业正式授权，并在违法失信名单核查中无不良记录。门店需配合商务、财政、审计、市场监督、税务等部门的监督检查工作。

2024 年末，国家发改委宣布 2025 年将扩大消费品补贴范围，首次将手机、平板电脑、智能手表手环等 3 类数码产品纳入国家补贴范围。

本消息暂时无法立即得到交叉验证。

20:03 · 2025年1月4日 · 周六

德国多处机场边检系统陷入大规模宕机

2025 年 1 月 3 日，德国联邦警察局的边检信息系统出现全国性技术故障，导致多个主要机场的出入境边检工作受到严重影响。此次故障从当地时间下午 2 时（北京时间晚上 9 时）开始，持续数小时后于晚间得到修复。

受影响最严重的是来自非申根区国家的旅客。由于系统故障，联邦警察不得不手动核查护照和签证，导致边检通道大排长龙、通关时间延长。在杜塞尔多夫机场，部分旅客等候时间超过 2 小时。法兰克福机场、柏林勃兰登堡机场及慕尼黑机场虽然受到影响但仍能维持基本运转。

联邦警察工会表示，此次故障暴露出警方信息系统的老化问题。该工会此前已多次警告系统存在隐患，并向内政部申请 1.5 亿欧元（约合人民币 11.3 亿元）的现代化改造经费，但未获批准。

联邦刑事警察局 (BKA) 表示，此次受影响的是警方信息网络系统 Inpol，该系统是联邦和各州警察部门信息交换的核心平台。目前相关部门正在调查故障原因，并将采取措施防止类似事件再次发生。

（综合德国之声、法兰克福汇报）

Before

After

Home

个人博客

讨论组