一个小站的自留地

起于小站，终于生活。
现实之外，一个普通人的思考。

博客地址：ygxz.in
讨论组：https://t.me/ygxz_group

19:15 · 2025年3月22日 · 周六

一个小站的自留地

腾讯开源大规模 MoE 模型及 3D 生成模型腾讯在北京举办的混元发布会上宣布开源两款人工智能模型：混元 Large (Hunyuan-Large) 和混元 3D 1.0 (Hunyuan3D-1.0)。混元 Large 是目前业界最大规模的开源混合专家 (MoE) 大语言模型，总参数量达到 389B，实际激活参数量为 52B。该模型具备 256K 的上下文长度，通过优化的 KV 缓存压缩技术可节省 50% 的 GPU 内存使用。在 MMLU、MMLU-Pro 和 CMMLU 等多个基准测试中，混元…

腾讯发布混元 T1 推理大模型

腾讯于2025年3月21日正式推出混元 T1 推理大模型，这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构（MoE）的大型推理模型。该模型在保持高质量推理能力的同时，实现了首字 1 秒内响应，生成速度达 60-80 词元/秒，特别适合实时交互场景。

混元 T1 基于此前发布的 TurboS 快速思维基座，通过大规模强化学习进一步强化了纯推理能力。在训练策略上，96.7% 的算力被投入强化学习训练，并采用课程学习策略逐步增加数据难度和上下文长度。

在公开基准测试中，混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首（DeepSeek-R1 的 97.3 分），在 AIME 2024 测试中更是获得 78.2 分，显著优于 GPT-4.5（36.7 分），展现出在数学逻辑与复杂问题求解方面的优势。不过，该模型在常识推理（GPQA Diamond 69.3 分）方面相对薄弱，低于主流模型均值。

在架构创新方面，混元 T1 通过 Mamba 模块优化了长序列处理能力，其高效计算方式在保证长文本信息捕获的同时，将解码速度提升至同类模型的 2 倍。

价格方面，混元 T1 的 API 服务定价为输入 1 元/百万词元，输出 4 元/百万词元，仅为 DeepSeek R1 的四分之一，是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线，面向开发者提供 API 服务，普通用户可通过腾讯元宝 APP 体验，Hugging Face 平台也提供了 Demo 测试空间。

（综合媒体报道）

14:57 · 2025年3月21日 · 周五

一个小站的自留地

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

Claude 网页搜索功能现已对 Pro 用户可用，免费用户后续也将获得该功能访问权。

14:57 · 2025年3月21日 · 周五

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布三款音频模型

OpenAI 刚刚宣布在其 API 中推出全新一代音频模型，包括两款语音转文本模型和一款文本转语音模型，旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构，为语音交互带来了显著提升。

语音转文本模型
- gpt-4o-transcribe：每分钟 0.006 美元，单词错误率(WER)显著降低至 2.46%，在多种语言的基准测试中优于现有 Whisper 模型，特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe：每分钟 0.003 美元（是前者的一半），基于 GPT-4o-mini 架构的精简版本，通过知识蒸馏技术从大模型转移能力，虽然 WER 稍高于完整版模型，但仍优于原有 Whisper 模型，速度更快、效率更高。

文本转语音模型
- gpt-4o-mini-tts：每分钟 0.015 美元，首次支持「可引导性」(steerability)，开发者不仅能指定「说什么」，还能控制「如何说」，包括预设多种语音风格或通过指令调整语音风格。

所有三个模型均通过 OpenAI 的 API 提供，用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频，该演示网站提供多种预设模板，包括人设、语气、方言、发音等设置。

（综合媒体报道）

10:20 · 2025年3月15日 · 周六

一个小站的自留地

阿里云新加坡机房 10 日发生火灾北京时间 2024 年 9 月 10 日 10:20，阿里云监控发现新加坡地域可用区 C 出现网络访问异常，部分云产品服务因此中断。根据阿里云发布的公告，此次事故由新加坡机房内锂电池爆炸引发火灾，导致机房温度急剧升高。目前，消防人员已抵达现场进行处理，但由于火情复杂，部分云产品的恢复工作仍在进行中。阿里云健康看板显示，目前新加坡区域仍有服务未恢复。官方最后一则故障更新来自 11 日凌晨01:46，称接当地消防要求，因消防浇水持续进行，机房开始出现积水和渗漏，电路存在短路风险，新加坡可用区C…

新加坡一数据中心发生火灾

据当地媒体报道，3月14日凌晨，位于新加坡菜市路750C（750C Chai Chee Road）的数据中心发生火灾。

据云数据中心提供商SG.GS发给客户的邮件透露，火灾由一次「爆炸」引发，目前公司已派出工程师进行详细调查。初步检查显示，数据中心的服务器仍在运行，但全面恢复尚需时间。

10:12 · 2025年3月12日 · 周三

一个小站的自留地

OpenAI 发布 GPT-4.5（研究预览版） OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。 GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT…

OpenAI 发布全新 Agent 工具套件

OpenAI 近日发布了一系列专为构建 AI 智能体（Agents）设计的新工具和 API。此次发布包含五个核心组件，所有功能已经在 API 平台上线。

- Responses API：结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力，作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件，显著简化了项目复杂度。

- Web Search 工具：将 OpenAI 内部使用的联网搜索功能开放给 API，支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。

- File Search 工具：支持上传多种格式文件（包括 txt、doc、pdf 等）到 OpenAI 向量库，实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。

- Computer Use Agent (CUA）：基于 GPT-4o 模型的多模态工具，允许 AI 通过截图理解界面并执行交互操作，实现自动化任务。支持 9 种基本操作行为，可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。

- Agents SDK：基于 Swarm 框架升级的开源 Agent 开发框架，支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型，包括第三方模型如 DeepSeek。

价格：
- Web 搜索：GPT-4o 搜索 30 美元/千次查询，GPT-4o-mini 搜索 25 美元/千次
- 文件搜索：2.5 美元/千次查询，文件存储 0.1 美元/GB/天（首 GB 免费）
- 计算机使用工具：输入 3 美元/百万 token，输出 12 美元/百万 token

（综合媒体报道）

13:39 · 2025年3月5日 · 周三

一个小站的自留地

Meta 发布 Llama 3.3 Meta 发布了新一代大语言模型 Llama 3.3 70B，该模型采用优化的 Transformer 架构，支持 128k 的上下文长度，并通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 进行训练。官方宣称，Llama 3.3 70B 的性能与 Llama 3.1 405B 模型相当。 Llama 3.3 的主要特点包括： - 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等 8 种语言 - 在多个基准测试中展现出色表现，如在…

Meta 将于2025年4月29日举办LlamaCon大会。

据悉，Llama 4 届时将会发布。

（AGI Hunt）

08:12 · 2025年3月3日 · 周一

一个小站的自留地

网易云音乐官方回复新京报贝壳财经记者称：「目前故障与机房无关，内容有失实」。 —————— 知情人士称，网易此次故障原因是云存储运维操作导致故障。本频信源确认了配图消息记录的真实性。该聊天确实来自网易员工。本频信源表示，本次故障与机房迁移无关。贵州机房切流早在六月份就已完成。部分媒体的报道有差错。网易云音乐在 B 站动态称，作为补偿，8月20日0-24时，网易云音乐搜「畅听音乐」，可领取7天会员权益。

2月28日下午，「网易云音乐又崩了」冲上微博热搜。

当晚，网易云音乐再次发文，表示故障因交换机故障引起。

作为补偿，网易云音乐将赠送7天黑胶VIP给受影响的用户，预计将在3月1日24点前直充到账户。

此前 2024 年 8 月 20 日，网易云音乐也曾因存储故障出现大规模宕机。

00:41 · 2025年3月1日 · 周六

一个小站的自留地

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」（DataLearner）

OpenAI 发布 GPT-4.5（研究预览版）

OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5（研究预览版），这是该公司迄今为止规模最大的语言模型。

GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型，其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比，GPT-4.5 主打「高情商」，能更自然地理解人类意图并提供更符合人类期望的回答。

在性能方面，GPT-4.5 在简单问答的准确度达到 62.5%，幻觉率降至 37.1%，相比 GPT-4o（61.8%）有明显改善。在专业查询、日常问题和创造性任务方面，GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。

由于 GPT-4.5 仅经过预训练和人类反馈强化学习（RLHF），并未进行深度推理训练，因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中，其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。

GPT-4.5 的 API 定价为输入每百万 tokens 75 美元，输出每百万 tokens 高达 150 美元，这一价格是 GPT-4o 的 15-30 倍，比 DeepSeek V3 贵出近 272 倍。有信源表示，GPT-4.5 的规模大约是 GPT-4 的 10 倍，因此推理和训练成本都居高不下。

因 GPU 资源不足，GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放，预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示，公司计划下周增加上万块 GPU 以支持更广泛的用户访问。

（综合媒体报道）

21:35 · 2025年2月26日 · 周三

一个小站的自留地

OpenAI 公布 GPT-4.5 与 GPT-5 路线图 OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。 - GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统 - 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro…

稍早之前，OpenAI的安卓客户端右上角为部分用户弹出一个提示：

「尝试 GPT-4.5 研究预览版 - Pro 用户现在可以访问我们最新、最大的模型。」

（DataLearner）

12:42 · 2025年2月25日 · 周二

一个小站的自留地

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。 Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

阿里 Qwen 首个推理模型发布，擅长数学和编程，将推出独立应用

阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持，基于 Qwen2.5-Max 构建，在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中，QwQ-Max-Preview 预览版排名第 5，超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。

QwQ 具有类似 Claude Artifacts 的界面，支持深度思考和联网搜索功能，并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示，将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重，并计划发布 Android 和 iOS 版专用应用。此外，团队还将推出更小的模型，如可部署在本地设备的 QwQ-32B。

12:41 · 2025年2月25日 · 周二

一个小站的自留地

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。 —————— 多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

Claude 3.7 Sonnet 发布，编程能力全面领先

Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet，这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式：标准模式保持快速响应，适合日常对话；扩展思考模式通过自我反思提升复杂任务表现，特别在数学、物理和编程领域效果显著。在各项基准测试中，Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1，在软件工程基准 SWE-bench 上创下 70.3% 的纪录。

同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构，官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型，但扩展思考模式仅向付费用户开放。定价保持不变：每百万输入词元 3 美元，输出词元 15 美元。

Claude 3.7 Sonnet 目前立即对所有用户可用，API 同步上线。

20:56 · 2025年2月20日 · 周四

一个小站的自留地

阿里云发布 Qwen2.5-Max 模型，称其性能超越 DeepSeek V3 和 GPT-4o 阿里云于 2025 年 1 月 29 日推出 Qwen2.5-Max 大语言模型，该模型基于混合专家架构（Mixture-of-Experts, MoE），参数规模超 200 亿，训练数据量达 20 万亿词元。据官方基准测试显示，Qwen2.5-Max 在 Arena-Hard（89.4）、LiveBench（62.2）等 5 项核心指标上均超越 DeepSeek V3 和 GPT-4o，其中数学推理能力（GSM8K…

阿里巴巴集团CEO吴泳铭在 2 月 20 日的财报会上透露，阿里将于近期发布基于Qwen2.5-Max 的深度推理模型。

Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型，各项能力指标表现突出，超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。

15:19 · 2025年2月20日 · 周四

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

苹果发布 iPhone 16e：搭载自研 C1 芯片，起售价 4499 元

北京时间 2 月 20 日凌晨，苹果正式发布 iPhone 16e，起售价 4499 元。作为 iPhone 16 系列的新成员，iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片，并支持 Apple Intelligence 功能。

iPhone 16e 采用 6.1 英寸 OLED 屏幕，配备 A18 芯片，但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄，不支持微距摄影、空间视频等功能。该机还配备了操作按钮，支持 USB-C 接口（USB 2.0）和 Qi 无线充电，但不支持 MagSafe 磁吸和 Qi2。

苹果表示，C1 芯片是「iPhone 迄今能效最高的调制解调器」，相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片，iPhone 16e 的续航时间达到 26 小时，超越 iPhone 16 的 22 小时。

iPhone 16e 将于 2 月 21 日晚 9 点开启预售，2 月 28 日正式发售。

（综合媒体报道）

——————

与此同时，苹果在发布会中预告，Apple Intelligence 将于四月支持中文，但未有明确是否会如期在中国大陆地区上线。

17:36 · 2025年2月19日 · 周三

一个小站的自留地

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。 Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为…

Anthropic 正准备发布思考模型与网页搜索功能，Pro 会员即将可用。

据@M1， Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。

为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。

——————

多个媒体预计，Anthropic 计划在二月底或三月初发布新进展，最早的可能时间窗口是 2 月 24 日，但目前官方暂未透露任何信息。

11:26 · 2025年2月19日 · 周三

一个小站的自留地

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain…

马斯克旗下 xAI 发布 Grok 3 模型

xAI 正式发布新一代大语言模型 Grok 3，该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练，计算量是 Grok 2 的 10 倍，成为目前已知训练算力最大的模型之一。

Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本，均支持推理模式。其中，Grok 3 mini Reasoning 已完成训练，Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。

性能方面，Grok 3 在数学（AIME 2024）、科学（GPQA）和编程（LCB）等多项基准测试中表现出色，超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型；并以 1402 分登顶 LMSYS 榜单，成为首个突破 1400 分的模型。

功能方面，Grok 3 的推出同时包含以下新功能：
- Think 模式：展示完整推理链条
- Big Brain 模式：调用额外算力解决复杂问题
- DeepSearch：实现多源信息交叉验证

价格方面，X平台Premium+订阅费用从22美元大幅上调至40美元，新增的SuperGrok独立订阅服务定价30美元，提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。

语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露，延迟主要源于方言口音识别的准确度问题。

提前获得内测资格的知名AI研究员Karpathy指出，该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平，但在伦理敏感问题上仍显保守，拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型，并持续优化当前系统的逻辑一致性。

（综合量子位、机器之心、CNBC 报道）

11:09 · 2025年2月16日 · 周日

一个小站的自留地

xAI 正式发布 Grok-2 AI 模型 xAI 公司已正式发布 Grok-2 AI 模型,这是其 Grok 系列的最新版本。此次发布包括 Grok-2 和 Grok-2 mini 两个版本,均在 X 平台(原 Twitter)上以测试版形式推出。 Grok-2 相比前代模型有显著提升: - 增强了聊天、编码和推理能力 - 新增图像生成功能,可在 X 平台上创建图像 - 性能有望超越当前主流 AI 模型目前,Grok-2 仅向 X 平台的 Premium 和 Premium+ 订阅用户开放。xAI…

马斯克在X上宣布，xAI 将于太平洋时间 2025 年 2 月 17 日（星期一）晚上 8 点举行 Grok-3 的发布会和现场演示。

此前在迪拜世界政府峰会上，马斯克表示 Grok-3 正处于最后完善阶段。马斯克早前还称，Grok-3 的表现超过了目前所有已发布的 AI 模型，这款产品将与 OpenAI 的 ChatGPT 和 Google 的 Gemini 直接竞争。

此前媒体报道，Grok-3 采用合成数据进行训练，使模型在训练过程中实现自主纠错与逻辑验证，使Grok-3能够主动识别数据矛盾，通过「思维链」(Chain-of-Thought)推理逐步修正错误。在内部测试中，该模型展现出处理复杂跨学科问题的卓越能力。

10:25 · 2025年2月14日 · 周五

一个小站的自留地

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。（Apple Developer）

百度今日官宣，将在未来几个月中陆续推出文心大模型 4.5 系列，并于 6 月 30 日起正式开源。

早前文心一言在官网宣布将于 4 月 1 日 0 时起全面免费，所有 PC 端和 APP 端用户均可体验文心系列最新模型，同时上线深度搜索功能。

此前 The Information 报道，即使苹果国行 AI 确定和阿里合作，但和百度的合作仍然会继续。

百度正在为苹果开发基于 AI 的搜索功能，除了能处理图像和文字，也将提升中文版 Siri 的体验，成为国行版 Apple Intelligence 的一部分。

09:02 · 2025年2月13日 · 周四

一个小站的自留地

OpenAI 推出深度研究智能体 Deep Research 北京时间 2 月 3 日，OpenAI 宣布面向深度研究领域推出智能体产品「Deep Research」，该产品能够通过推理综合大量在线信息完成多步骤研究任务。目前该功能已面向 Pro 用户开放，月均查询上限为 100 次，将逐步向 Plus、Team 和企业用户推广。免费用户也将获得「相当小」的额度。 Deep Research 基于 o3 模型构建，针对网页浏览和 Python 数据分析进行优化，具备三项核心能力： - 支持解析互联网文本、图像和…

OpenAI 公布 GPT-4.5 与 GPT-5 路线图

OpenAI CEO Sam Altman 于 2 月 12 日在 X 平台发布推文，正式公开下一代大语言模型的发展路线。据透露，GPT-4.5（内部代号 Orion）将于未来数周至数月内发布，该模型将成为 OpenAI 最后一个非思维链（non-chain-of-thought）基础模型。

- GPT-5 将整合现有 o 系列与 GPT 系列模型，形成可调用全工具集的统一智能系统
- 免费用户可在标准智能模式下无限使用 GPT-5，Plus/Pro 用户将获更高智能等级
- o3 模型不再独立发布，其技术将融入 GPT-5
- 未来用户无需手动选择模型，新系统将根据用户提示自动调用最佳模型组合，具备动态调整思考深度等能力。

Pro 用户即日起可在全平台使用深度研究功能，Plus 用户每日与 o3-mini-high 的对话次数提升至 50 次（增加 7 倍）。

同步发布的最新《模型规范白皮书》则披露，OpenAI 将采用 CC0 协议开放模型行为准则框架；建立三级优先级指令链（OpenAI 预设 > 开发者规则 > 用户指令）；强化事实核查机制（去年 5 月至今，模型规范遵循度提升 41%）以及新增「知识自由保障条款与进度评估体系」等。

另外，OpenAI 还宣布o3-mini 及 o1 现已支持图片和文件上传。

（The Verge）

11:31 · 2025年2月11日 · 周二

一个小站的自留地

Claude 网页版现在支持自定义回复语气，除预设回复语气外，还可根据用户描述生成自定义回复语气预设。

坊间传言称，Anthropic计划在近期发布Claude 4。该模型将在未来几周内推出，重点关注企业应用。

Claude 4采用混合架构设计，整合了通用语言理解与专用推理模块。对比OpenAI现有的三档推理强度调节机制（低-中-高），Anthropic引入了连续可调的推理强度刻度尺（0-100%）。该架构通过动态资源分配机制，可根据任务复杂度自动切换运算模式：在处理简单查询时保持标准LLM的响应效率，面对复杂问题时启用增强推理模式。

此前媒体报道，Claude 3.5 Opus的研发遭遇技术瓶颈，作为替代方案，Anthropic采用知识蒸馏技术，将未发布的Opus模型能力迁移至更小规模的架构。

18:39 · 2025年2月10日 · 周一

一个小站的自留地

Apple 2024 秋季发布会：iPhone 16 系列、Apple Watch Series 10、AirPods 4 重磅亮相 2024 年 9 月 10 日凌晨，Apple 如期举行了备受期待的秋季发布会，主题为「It's Glowtime」。本次发布会上，Apple 推出了 iPhone 16 系列、Apple Watch Series 10、AirPods 4 等多款新品。虽然硬件更新并未带来太多惊喜，但围绕 AI 的发展方向和应用引发了广泛讨论。 iPhone 16 系列：全新相机控制键与…

Apple 将在3月25日于上海举行开发者活动，主题为「利用Apple智能的力量」，外界因此猜测国行版Apple Intelligence 即将上线。

此前媒体报道，Apple 将于 4月上线 Apple Intelligence 的中文支持。The Information 报道，国内合作方是阿里巴巴。

（Apple Developer）

Before

After

Home

个人博客

讨论组