Runway 于 3 月 31 日发布了其最新 AI 视频生成模型 Gen-4,该模型已向公司的个人和企业用户开放。
Gen-4 解决了 AI 视频生成领域最大的难题之一:世界一致性。通过名为「References」的新工具,模型能够在不同场景中生成保持一致的角色、位置和物体。用户只需提供主体的参考图像并描述所需的画面构成,Gen-4 就能完成剩余工作。
该模型不仅能保持物体在整个视频中的一致外观,即使其他元素发生变化,还提供了改进的物理模拟能力。据 Runway 称,这代表了「视觉生成模型模拟现实世界物理规律能力的重要里程碑」。
目前,Gen-4 允许用户创建 5 秒和 10 秒长的 720p 分辨率视频。Gen-4 图像到视频功能已开始向付费用户推出,References 功能即将推出,之后将提供 API 访问。
据报道,Runway 正在谈判新一轮融资,可能将公司估值提升至 40 亿美元,并计划通过其 AI 视频模型 API 等产品实现 3 亿美元的年收入。
(综合Yahoo Finance、TechCrunch、No Film School)
阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入,并能实时生成文本或自然语音的流式响应。目前,该模型已在 HuggingFace 平台以 Apache 2.0 协议开源,可免费商用。
Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话,而模型能实时输出文本和语音响应。该模型仅有 70 亿参数(70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数),最高支持 32K 输入长度和 8K 输出长度,响应速度非常快,官方演示显示时延极小。
在训练方面,Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练,包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据,并使用额外的纯文本数据保持语言能力。
模型采用创新的 Thinker-Talker 架构,通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解,集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能动态处理各类输入;Talker 模块则专注于流式语音生成,通过因果式解码器和滑动窗口机制实现低延迟语音输出。
在性能评测上,Qwen2.5-Omni-7B 表现出色。在单模态评测中,其语音识别(ASR)能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%,视频理解方面在 Video-MME 的评测达到 72.4,优于 GPT-4o-mini。在文本理解方面,MMLU Pro 的评测结果与 Llama3.1-8B 接近,虽然低于 Gemma2-9B 和 Claude 3 Haiku,但超过了 Qwen2.5 7B。
(DataLearner)
这一功能无论是文字渲染还是风格控制上,都已达到图片生成的第一梯队。
这一功能最早于 26 日凌晨面向 Pro 用户可用,正逐步向 Plus 用户开放。
谷歌称, Gemini 2.5是其最新的AI模型,具备推理能力,能够处理复杂问题,首次发布的实验版本Gemini 2.5 Pro在多个基准测试中表现优异,位列LMArena排行榜第一。
Gemini 2.5 Pro支持1百万个令牌的上下文窗口,能够处理来自文本、音频、图像和视频的复杂数据,提升了对多种信息源的理解能力。
该模型在编码方面取得了显著进步,能够创建视觉吸引力强的网页应用和代码转换,SWE-Bench Verified测试中得分为63.8%。
Gemini 2.5 Pro现已在Google AI Studio和Gemini应用中提供,预计不久后将在Vertex AI上线,定价将在未来几周内公布。
(Google)
官方称其「小版本升级」,目前官方 API 渠道和官网都已经同步更新新模型。
小道消息称本次新版本将知识截止日期更新到了2024 年 7 月,同时在上下文理解和编程能力上有所提升。截至发稿,官方暂未发布更新日志。
另据极客公园,新版 V3 的开源许可与 R1 一样,也更新变成了 MIT 开源许可(MIT License),这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
腾讯于2025年3月21日正式推出混元 T1 推理大模型,这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构(MoE)的大型推理模型。该模型在保持高质量推理能力的同时,实现了首字 1 秒内响应,生成速度达 60-80 词元/秒,特别适合实时交互场景。
混元 T1 基于此前发布的 TurboS 快速思维基座,通过大规模强化学习进一步强化了纯推理能力。在训练策略上,96.7% 的算力被投入强化学习训练,并采用课程学习策略逐步增加数据难度和上下文长度。
在公开基准测试中,混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首(DeepSeek-R1 的 97.3 分),在 AIME 2024 测试中更是获得 78.2 分,显著优于 GPT-4.5(36.7 分),展现出在数学逻辑与复杂问题求解方面的优势。不过,该模型在常识推理(GPQA Diamond 69.3 分)方面相对薄弱,低于主流模型均值。
在架构创新方面,混元 T1 通过 Mamba 模块优化了长序列处理能力,其高效计算方式在保证长文本信息捕获的同时,将解码速度提升至同类模型的 2 倍。
价格方面,混元 T1 的 API 服务定价为输入 1 元/百万词元,输出 4 元/百万词元,仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线,面向开发者提供 API 服务,普通用户可通过腾讯元宝 APP 体验,Hugging Face 平台也提供了 Demo 测试空间。
(综合媒体报道)
OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。
语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。
文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。
所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。
(综合媒体报道)
据当地媒体报道,3月14日凌晨,位于新加坡菜市路750C(750C Chai Chee Road)的数据中心发生火灾。
据云数据中心提供商SG.GS发给客户的邮件透露,火灾由一次「爆炸」引发,目前公司已派出工程师进行详细调查。初步检查显示,数据中心的服务器仍在运行,但全面恢复尚需时间。
OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。
- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。
- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。
- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。
- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。
- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。
价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token
(综合媒体报道)
当晚,网易云音乐再次发文,表示故障因交换机故障引起。
作为补偿,网易云音乐将赠送7天黑胶VIP给受影响的用户,预计将在3月1日24点前直充到账户。
此前 2024 年 8 月 20 日,网易云音乐也曾因存储故障出现大规模宕机。
OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。
GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。
在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。
由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。
GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。
因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。
(综合媒体报道)
阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。
QwQ 具有类似 Claude Artifacts 的界面,支持深度思考和联网搜索功能,并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示,将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重,并计划发布 Android 和 iOS 版专用应用。此外,团队还将推出更小的模型,如可部署在本地设备的 QwQ-32B。
Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet,这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式:标准模式保持快速响应,适合日常对话;扩展思考模式通过自我反思提升复杂任务表现,特别在数学、物理和编程领域效果显著。在各项基准测试中,Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1,在软件工程基准 SWE-bench 上创下 70.3% 的纪录。
同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构,官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型,但扩展思考模式仅向付费用户开放。定价保持不变:每百万输入词元 3 美元,输出词元 15 美元。
Claude 3.7 Sonnet 目前立即对所有用户可用,API 同步上线。
——————
针对 Hopper GPU 优化的多头潜注意力内核 FlashMLA
DeepSeek 于 2 月 24 日推出开源周首日项目 FlashMLA,这是一款专为英伟达 Hopper GPU 架构优化的高效多头潜注意力(Multi-head Latent Attention,MLA)解码内核。该技术针对变长序列进行了专门优化,并已在 DeepSeek 生产环境中投入使用。经实测,FlashMLA 在 H800 SXM5 平台上(CUDA 12.6)表现出色,内存受限配置下可达 3000 GB/s 的吞吐量,计算受限配置下可达 580 TFLOPS 的性能。
MLA 技术是 DeepSeek 训练成本较低的核心秘诀之一,能将每次查询所需的 KV 缓存量减少约 93.3%,显著降低内存占用。当前版本已支持 BF16 精度和 64 块大小的分页 KV 缓存。这一项目的设计借鉴了 FlashAttention-2、FlashAttention-3 以及 CUTLASS 的技术实现,使用 MIT 许可证开源。
MoE 专用通信库 DeepEP
DeepSeek 于 2 月 25 日推出开源周第二天项目 DeepEP,这是首个专为混合专家模型(MoE)训练和推理设计的开源专家并行(Expert Parallelism,EP)通信库。该库提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,支持 FP8 低精度计算,显著提升了大规模 MoE 模型的性能。
DeepEP 的关键特性包括:高效优化的全对全通信、节点内 NVLink 和节点间 RDMA 支持、训练和推理预填充用的高吞吐量内核、推理解码用的低延迟内核,以及灵活的 GPU 资源控制。在基于 H800 GPU 的测试中,常规内核在训练场景下实现了 158 GB/s 的 NVLink 带宽,而低延迟内核在推理任务中将延迟降至 163 微秒。DeepEP 采用 MIT 开源协议发布,需要特定环境支持,包括 Hopper GPU 架构、Python 3.8+、CUDA 12.3+ 和 PyTorch 2.1+,目前暂不支持消费级显卡。
Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
北京时间 2 月 20 日凌晨,苹果正式发布 iPhone 16e,起售价 4499 元。作为 iPhone 16 系列的新成员,iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片,并支持 Apple Intelligence 功能。
iPhone 16e 采用 6.1 英寸 OLED 屏幕,配备 A18 芯片,但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄,不支持微距摄影、空间视频等功能。该机还配备了操作按钮,支持 USB-C 接口(USB 2.0)和 Qi 无线充电,但不支持 MagSafe 磁吸和 Qi2。
苹果表示,C1 芯片是「iPhone 迄今能效最高的调制解调器」,相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片,iPhone 16e 的续航时间达到 26 小时,超越 iPhone 16 的 22 小时。
iPhone 16e 将于 2 月 21 日晚 9 点开启预售,2 月 28 日正式发售。
(综合媒体报道)
——————
与此同时,苹果在发布会中预告,Apple Intelligence 将于四月支持中文,但未有明确是否会如期在中国大陆地区上线。