一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

14:14 · 2025年4月1日 · 周二

一个小站的自留地

据@数字生命卡兹克，Runway Gen-3 Alpha近日面向部分超级合作者开放。 @数字生命卡兹克认为，Gen-3 Alpha在模型质量上确实超越了Luma和可灵等竞品，特别是在审美方面。虽然与真实世界相比仍有差距，但已经是当前AI视频生成领域的佼佼者。在写实风格测试中，人物特写和风景表现最为稳定，但涉及人物与物体交互时仍存在一些问题。动画风格整体表现较弱，显示出数据集的不足。科幻风格则是Gen-3 Alpha的强项，表现出色。玄幻风格虽不及科幻，但在西方题材上仍有不错发挥。抽象风格的表现令人…

Runway 最新视频生成技术 Gen-4 发布

Runway 于 3 月 31 日发布了其最新 AI 视频生成模型 Gen-4，该模型已向公司的个人和企业用户开放。

Gen-4 解决了 AI 视频生成领域最大的难题之一：世界一致性。通过名为「References」的新工具，模型能够在不同场景中生成保持一致的角色、位置和物体。用户只需提供主体的参考图像并描述所需的画面构成，Gen-4 就能完成剩余工作。

该模型不仅能保持物体在整个视频中的一致外观，即使其他元素发生变化，还提供了改进的物理模拟能力。据 Runway 称，这代表了「视觉生成模型模拟现实世界物理规律能力的重要里程碑」。

目前，Gen-4 允许用户创建 5 秒和 10 秒长的 720p 分辨率视频。Gen-4 图像到视频功能已开始向付费用户推出，References 功能即将推出，之后将提供 API 访问。

据报道，Runway 正在谈判新一轮融资，可能将公司估值提升至 40 亿美元，并计划通过其 AI 视频模型 API 等产品实现 3 亿美元的年收入。

（综合Yahoo Finance、TechCrunch、No Film School）

09:44 · 2025年3月27日 · 周四

一个小站的自留地

阿里 Qwen 首个推理模型发布，擅长数学和编程，将推出独立应用阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持，基于 Qwen2.5-Max 构建，在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中，QwQ-Max-Preview 预览版排名第 5，超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。 QwQ 具有类似 Claude…

阿里开源全模态大模型 Qwen2.5-Omni-7B

阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B，该模型支持文本、图像、音频、视频（无音频轨）的多模态输入，并能实时生成文本或自然语音的流式响应。目前，该模型已在 HuggingFace 平台以 Apache 2.0 协议开源，可免费商用。

Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话，而模型能实时输出文本和语音响应。该模型仅有 70 亿参数（70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数），最高支持 32K 输入长度和 8K 输出长度，响应速度非常快，官方演示显示时延极小。

在训练方面，Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练，包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据，并使用额外的纯文本数据保持语言能力。

模型采用创新的 Thinker-Talker 架构，通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解，集成了视觉编码器（ViT）和音频编码器（Qwen2-Audio），能动态处理各类输入；Talker 模块则专注于流式语音生成，通过因果式解码器和滑动窗口机制实现低延迟语音输出。

在性能评测上，Qwen2.5-Omni-7B 表现出色。在单模态评测中，其语音识别（ASR）能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%，视频理解方面在 Video-MME 的评测达到 72.4，优于 GPT-4o-mini。在文本理解方面，MMLU Pro 的评测结果与 Llama3.1-8B 接近，虽然低于 Gemma2-9B 和 Claude 3 Haiku，但超过了 Qwen2.5 7B。

（DataLearner）

16:29 · 2025年3月26日 · 周三

一个小站的自留地

OpenAI 发布三款音频模型 OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构，为语音交互带来了显著提升。语音转文本模型 - gpt-4o-transcribe：每分钟 0.006 美元，单词错误率(WER)显著降低至 2.46%，在多种语言的基准测试中优于现有 Whisper 模型，特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。 - gpt-4o-mini…

Open AI 更新了 GPT-4o 的图像生成功能，现在 GPT-4o 可以利用其多模态能力和上下文信息生成高质量图像。
这一功能无论是文字渲染还是风格控制上，都已达到图片生成的第一梯队。

这一功能最早于 26 日凌晨面向 Pro 用户可用，正逐步向 Plus 用户开放。

01:54 · 2025年3月26日 · 周三

一个小站的自留地

谷歌发布 Gemini 2.0 系列模型，支持 200 万 tokens 上下文窗口 2025 年 2 月 6 日，谷歌正式发布 Gemini 2.0 系列大语言模型，包含 Gemini 2.0 Pro（实验版）、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 三个版本。该系列模型在编码、复杂指令处理和长文本理解能力上均有显著提升，最高支持 200 万 tokens 上下文窗口。各模型亮点一览： - Gemini 2.0 Pro：支持 200 万 tokens 上下文窗口，在…

谷歌发布 Gemini 2.5 Pro 实验模型

谷歌称， Gemini 2.5是其最新的AI模型，具备推理能力，能够处理复杂问题，首次发布的实验版本Gemini 2.5 Pro在多个基准测试中表现优异，位列LMArena排行榜第一。

Gemini 2.5 Pro支持1百万个令牌的上下文窗口，能够处理来自文本、音频、图像和视频的复杂数据，提升了对多种信息源的理解能力。

该模型在编码方面取得了显著进步，能够创建视觉吸引力强的网页应用和代码转换，SWE-Bench Verified测试中得分为63.8%。

Gemini 2.5 Pro现已在Google AI Studio和Gemini应用中提供，预计不久后将在Vertex AI上线，定价将在未来几周内公布。

（Google）

21:37 · 2025年3月24日 · 周一

一个小站的自留地

DeepSeek全球爆火，一日内多次服务宕机 DeepSeek继推出突破性的R1模型后迎来了史无前例的全球性爆发。1月27日，这家中国AI初创公司的移动应用在美国、中国等28个国家的苹果应用商店免费榜登顶，另有53个国家排名进入前十。据DeepSeek官方状态页面显示，当天其服务器经历了至少三次大规模宕机。首次故障始于10时55分，V3模型API服务出现严重中断。官方在12时左右部分恢复R1模型服务，但V3模型API经过长达3.5小时的抢修，最终在14时21分完全恢复，技术团队用中文留言「V3 …

深度求索发布了DeepSeek-V3-0324 模型。
官方称其「小版本升级」，目前官方 API 渠道和官网都已经同步更新新模型。

小道消息称本次新版本将知识截止日期更新到了2024 年 7 月，同时在上下文理解和编程能力上有所提升。截至发稿，官方暂未发布更新日志。

另据极客公园，新版 V3 的开源许可与 R1 一样，也更新变成了 MIT 开源许可（MIT License），这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

huggingface.co

deepseek-ai/DeepSeek-V3-0324 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

19:15 · 2025年3月22日 · 周六

一个小站的自留地

腾讯开源大规模 MoE 模型及 3D 生成模型腾讯在北京举办的混元发布会上宣布开源两款人工智能模型：混元 Large (Hunyuan-Large) 和混元 3D 1.0 (Hunyuan3D-1.0)。混元 Large 是目前业界最大规模的开源混合专家 (MoE) 大语言模型，总参数量达到 389B，实际激活参数量为 52B。该模型具备 256K 的上下文长度，通过优化的 KV 缓存压缩技术可节省 50% 的 GPU 内存使用。在 MMLU、MMLU-Pro 和 CMMLU 等多个基准测试中，混元…

腾讯发布混元 T1 推理大模型

腾讯于2025年3月21日正式推出混元 T1 推理大模型，这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构（MoE）的大型推理模型。该模型在保持高质量推理能力的同时，实现了首字 1 秒内响应，生成速度达 60-80 词元/秒，特别适合实时交互场景。

混元 T1 基于此前发布的 TurboS 快速思维基座，通过大规模强化学习进一步强化了纯推理能力。在训练策略上，96.7% 的算力被投入强化学习训练，并采用课程学习策略逐步增加数据难度和上下文长度。

在公开基准测试中，混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首（DeepSeek-R1 的 97.3 分），在 AIME 2024 测试中更是获得 78.2 分，显著优于 GPT-4.5（36.7 分），展现出在数学逻辑与复杂问题求解方面的优势。不过，该模型在常识推理（GPQA Diamond 69.3 分）方面相对薄弱，低于主流模型均值。

在架构创新方面，混元 T1 通过 Mamba 模块优化了长序列处理能力，其高效计算方式在保证长文本信息捕获的同时，将解码速度提升至同类模型的 2 倍。

价格方面，混元 T1 的 API 服务定价为输入 1 元/百万词元，输出 4 元/百万词元，仅为 DeepSeek R1 的四分之一，是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线，面向开发者提供 API 服务，普通用户可通过腾讯元宝 APP 体验，Hugging Face 平台也提供了 Demo 测试空间。

（综合媒体报道）

14:57 · 2025年3月21日 · 周五

一个小站的自留地

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

Claude 网页搜索功能现已对 Pro 用户可用，免费用户后续也将获得该功能访问权。

14:57 · 2025年3月21日 · 周五

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布三款音频模型

OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构，为语音交互带来了显著提升。

语音转文本模型
- gpt-4o-transcribe：每分钟 0.006 美元，单词错误率(WER)显著降低至 2.46%，在多种语言的基准测试中优于现有 Whisper 模型，特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe：每分钟 0.003 美元（是前者的一半），基于 GPT-4o-mini 架构的精简版本，通过知识蒸馏技术从大模型转移能力，虽然 WER 稍高于完整版模型，但仍优于原有 Whisper 模型，速度更快、效率更高。

文本转语音模型
- gpt-4o-mini-tts：每分钟 0.015 美元，首次支持「可引导性」(steerability)，开发者不仅能指定「说什么」，还能控制「如何说」，包括预设多种语音风格或通过指令调整语音风格。

所有三个模型均通过 OpenAI 的 API 提供，用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频，该演示网站提供多种预设模板，包括人设、语气、方言、发音等设置。

（综合媒体报道）

10:20 · 2025年3月15日 · 周六

一个小站的自留地

阿里云新加坡机房 10 日发生火灾北京时间 2024 年 9 月 10 日 10:20，阿里云监控发现新加坡地域可用区 C 出现网络访问异常，部分云产品服务因此中断。根据阿里云发布的公告，此次事故由新加坡机房内锂电池爆炸引发火灾，导致机房温度急剧升高。目前，消防人员已抵达现场进行处理，但由于火情复杂，部分云产品的恢复工作仍在进行中。阿里云健康看板显示，目前新加坡区域仍有服务未恢复。官方最后一则故障更新来自 11 日凌晨01:46，称接当地消防要求，因消防浇水持续进行，机房开始出现积水和渗漏，电路存在短路风险，新加坡可用区C…

新加坡一数据中心发生火灾

据当地媒体报道，3月14日凌晨，位于新加坡菜市路750C（750C Chai Chee Road）的数据中心发生火灾。

据云数据中心提供商SG.GS发给客户的邮件透露，火灾由一次「爆炸」引发，目前公司已派出工程师进行详细调查。初步检查显示，数据中心的服务器仍在运行，但全面恢复尚需时间。

10:12 · 2025年3月12日 · 周三

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布全新 Agent 工具套件

OpenAI 近日发布了一系列专为构建 AI 智能体（Agents）设计的新工具和 API。此次发布包含五个核心组件，所有功能已经在 API 平台上线。

- Responses API：结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力，作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件，显著简化了项目复杂度。

- Web Search 工具：将 OpenAI 内部使用的联网搜索功能开放给 API，支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。

- File Search 工具：支持上传多种格式文件（包括 txt、doc、pdf 等）到 OpenAI 向量库，实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。

- Computer Use Agent (CUA）：基于 GPT-4o 模型的多模态工具，允许 AI 通过截图理解界面并执行交互操作，实现自动化任务。支持 9 种基本操作行为，可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。

- Agents SDK：基于 Swarm 框架升级的开源 Agent 开发框架，支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型，包括第三方模型如 DeepSeek。

价格：
- Web 搜索：GPT-4o 搜索 30 美元/千次查询，GPT-4o-mini 搜索 25 美元/千次
- 文件搜索：2.5 美元/千次查询，文件存储 0.1 美元/GB/天（首 GB 免费）
- 计算机使用工具：输入 3 美元/百万 token，输出 12 美元/百万 token

（综合媒体报道）

13:39 · 2025年3月5日 · 周三

一个小站的自留地

Meta 发布 Llama 3.3 Meta 发布了新一代大语言模型 Llama 3.3 70B，该模型采用优化的 Transformer 架构，支持 128k 的上下文长度，并通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 进行训练。官方宣称，Llama 3.3 70B 的性能与 Llama 3.1 405B 模型相当。 Llama 3.3 的主要特点包括： - 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等 8 种语言 - 在多个基准测试中展现出色表现，如在…

Meta 将于2025年4月29日举办LlamaCon大会。

据悉，Llama 4 届时将会发布。

（AGI Hunt）

08:12 · 2025年3月3日 · 周一

一个小站的自留地

网易云音乐官方回复新京报贝壳财经记者称：「目前故障与机房无关，内容有失实」。 —————— 知情人士称，网易此次故障原因是云存储运维操作导致故障。本频信源确认了配图消息记录的真实性。该聊天确实来自网易员工。本频信源表示，本次故障与机房迁移无关。贵州机房切流早在六月份就已完成。部分媒体的报道有差错。网易云音乐在 B 站动态称，作为补偿，8月20日0-24时，网易云音乐搜「畅听音乐」，可领取7天会员权益。

2月28日下午，「网易云音乐又崩了」冲上微博热搜。

当晚，网易云音乐再次发文，表示故障因交换机故障引起。

作为补偿，网易云音乐将赠送7天黑胶VIP给受影响的用户，预计将在3月1日24点前直充到账户。

此前 2024 年 8 月 20 日，网易云音乐也曾因存储故障出现大规模宕机。

00:41 · 2025年3月1日 · 周六

一个小站的自留地

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」（DataLearner）

OpenAI 发布 GPT-4.5（研究预览版）

OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。

GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。

在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT-4o（61.8%）有明显改善。在专业查询、日常问题和创造性任务方面，GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。

由于 GPT-4.5 仅经过预训练和人类反馈强化学习（RLHF），并未进行深度推理训练，因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中，其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。

GPT-4.5 的 API 定价为输入每百万 tokens 75 美元，输出每百万 tokens 高达 150 美元，这一价格是 GPT-4o 的 15-30 倍，比 DeepSeek V3 贵出近 272 倍。有信源表示，GPT-4.5 的规模大约是 GPT-4 的 10 倍，因此推理和训练成本都居高不下。

因 GPU 资源不足，GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放，预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示，公司计划下周增加上万块 GPU 以支持更广泛的用户访问。

（综合媒体报道）

21:35 · 2025年2月26日 · 周三

一个小站的自留地

OpenAI 公布 GPT-4.5 与 GPT-5 路线图 OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。 - GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统 - 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro…

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：

「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」

（DataLearner）

12:42 · 2025年2月25日 · 周二

一个小站的自留地

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。 Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

阿里 Qwen 首个推理模型发布，擅长数学和编程，将推出独立应用

阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持，基于 Qwen2.5-Max 构建，在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中，QwQ-Max-Preview 预览版排名第 5，超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。

QwQ 具有类似 Claude Artifacts 的界面，支持深度思考和联网搜索功能，并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示，将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重，并计划发布 Android 和 iOS 版专用应用。此外，团队还将推出更小的模型，如可部署在本地设备的 QwQ-32B。

12:41 · 2025年2月25日 · 周二

一个小站的自留地

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

Claude 3.7 Sonnet 发布，编程能力全面领先

Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet，这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式：标准模式保持快速响应，适合日常对话；扩展思考模式通过自我反思提升复杂任务表现，特别在数学、物理和编程领域效果显著。在各项基准测试中，Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1，在软件工程基准 SWE-bench 上创下 70.3% 的纪录。

同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构，官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型，但扩展思考模式仅向付费用户开放。定价保持不变：每百万输入词元 3 美元，输出词元 15 美元。

Claude 3.7 Sonnet 目前立即对所有用户可用，API 同步上线。

20:56 · 2025年2月20日 · 周四

一个小站的自留地

阿里云发布 Qwen2.5-Max 模型，称其性能超越 DeepSeek V3 和 GPT-4o 阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型，该模型基于混合专家架构（Mixture-of-Experts, MoE），参数规模超 200 亿，训练数据量达 20 万亿词元。据官方基准测试显示，Qwen2.5-Max 在 Arena-Hard（89.4）、LiveBench（62.2）等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o，其中数学推理能力（GSM8K…

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。

Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

15:19 · 2025年2月20日 · 周四

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

苹果发布 iPhone 16e：搭载自研 C1 芯片，起售价 4499 元

北京时间 2 月 20 日凌晨，苹果正式发布 iPhone 16e，起售价 4499 元。作为 iPhone 16 系列的新成员，iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片，并支持 Apple Intelligence 功能。

iPhone 16e 采用 6.1 英寸 OLED 屏幕，配备 A18 芯片，但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄，不支持微距摄影、空间视频等功能。该机还配备了操作按钮，支持 USB-C 接口（USB 2.0）和 Qi 无线充电，但不支持 MagSafe 磁吸和 Qi2。

苹果表示，C1 芯片是「iPhone 迄今能效最高的调制解调器」，相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片，iPhone 16e 的续航时间达到 26 小时，超越 iPhone 16 的 22 小时。

iPhone 16e 将于 2 月 21 日晚 9 点开启预售，2 月 28 日正式发售。

（综合媒体报道）

——————

与此同时，苹果在发布会中预告，Apple Intelligence 将于四月支持中文，但未有明确是否会如期在中国大陆地区上线。

17:36 · 2025年2月19日 · 周三

一个小站的自留地

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。 Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为…

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。

据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。

为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。

——————

多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

11:26 · 2025年2月19日 · 周三

一个小站的自留地

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain…

马斯克旗下 xAI 发布 Grok 3 模型

xAI 正式发布新一代大语言模型 Grok 3，该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练，计算量是 Grok 2 的 10 倍，成为目前已知训练算力最大的模型之一。

Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本，均支持推理模式。其中，Grok 3 mini Reasoning 已完成训练，Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。

性能方面，Grok 3 在数学（AIME 2024）、科学（GPQA）和编程（LCB）等多项基准测试中表现出色，超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型；并以 1402 分登顶 LMSYS 榜单，成为首个突破 1400 分的模型。

功能方面，Grok 3 的推出同时包含以下新功能：
- Think 模式：展示完整推理链条
- Big Brain 模式：调用额外算力解决复杂问题
- DeepSearch：实现多源信息交叉验证

价格方面，X平台Premium+订阅费用从22美元大幅上调至40美元，新增的SuperGrok独立订阅服务定价30美元，提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。

语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露，延迟主要源于方言口音识别的准确度问题。

提前获得内测资格的知名AI研究员Karpathy指出，该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平，但在伦理敏感问题上仍显保守，拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型，并持续优化当前系统的逻辑一致性。

（综合量子位、机器之心、CNBC 报道）

Before

After

Home

个人博客

讨论组