Runway 于 3 月 31 日发布了其最新 AI 视频生成模型 Gen-4,该模型已向公司的个人和企业用户开放。
Gen-4 解决了 AI 视频生成领域最大的难题之一:世界一致性。通过名为「References」的新工具,模型能够在不同场景中生成保持一致的角色、位置和物体。用户只需提供主体的参考图像并描述所需的画面构成,Gen-4 就能完成剩余工作。
该模型不仅能保持物体在整个视频中的一致外观,即使其他元素发生变化,还提供了改进的物理模拟能力。据 Runway 称,这代表了「视觉生成模型模拟现实世界物理规律能力的重要里程碑」。
目前,Gen-4 允许用户创建 5 秒和 10 秒长的 720p 分辨率视频。Gen-4 图像到视频功能已开始向付费用户推出,References 功能即将推出,之后将提供 API 访问。
据报道,Runway 正在谈判新一轮融资,可能将公司估值提升至 40 亿美元,并计划通过其 AI 视频模型 API 等产品实现 3 亿美元的年收入。
(综合Yahoo Finance、TechCrunch、No Film School)
阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入,并能实时生成文本或自然语音的流式响应。目前,该模型已在 HuggingFace 平台以 Apache 2.0 协议开源,可免费商用。
Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话,而模型能实时输出文本和语音响应。该模型仅有 70 亿参数(70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数),最高支持 32K 输入长度和 8K 输出长度,响应速度非常快,官方演示显示时延极小。
在训练方面,Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练,包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据,并使用额外的纯文本数据保持语言能力。
模型采用创新的 Thinker-Talker 架构,通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解,集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能动态处理各类输入;Talker 模块则专注于流式语音生成,通过因果式解码器和滑动窗口机制实现低延迟语音输出。
在性能评测上,Qwen2.5-Omni-7B 表现出色。在单模态评测中,其语音识别(ASR)能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%,视频理解方面在 Video-MME 的评测达到 72.4,优于 GPT-4o-mini。在文本理解方面,MMLU Pro 的评测结果与 Llama3.1-8B 接近,虽然低于 Gemma2-9B 和 Claude 3 Haiku,但超过了 Qwen2.5 7B。
(DataLearner)
这一功能无论是文字渲染还是风格控制上,都已达到图片生成的第一梯队。
这一功能最早于 26 日凌晨面向 Pro 用户可用,正逐步向 Plus 用户开放。
谷歌称, Gemini 2.5是其最新的AI模型,具备推理能力,能够处理复杂问题,首次发布的实验版本Gemini 2.5 Pro在多个基准测试中表现优异,位列LMArena排行榜第一。
Gemini 2.5 Pro支持1百万个令牌的上下文窗口,能够处理来自文本、音频、图像和视频的复杂数据,提升了对多种信息源的理解能力。
该模型在编码方面取得了显著进步,能够创建视觉吸引力强的网页应用和代码转换,SWE-Bench Verified测试中得分为63.8%。
Gemini 2.5 Pro现已在Google AI Studio和Gemini应用中提供,预计不久后将在Vertex AI上线,定价将在未来几周内公布。
(Google)
官方称其「小版本升级」,目前官方 API 渠道和官网都已经同步更新新模型。
小道消息称本次新版本将知识截止日期更新到了2024 年 7 月,同时在上下文理解和编程能力上有所提升。截至发稿,官方暂未发布更新日志。
另据极客公园,新版 V3 的开源许可与 R1 一样,也更新变成了 MIT 开源许可(MIT License),这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
腾讯于2025年3月21日正式推出混元 T1 推理大模型,这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构(MoE)的大型推理模型。该模型在保持高质量推理能力的同时,实现了首字 1 秒内响应,生成速度达 60-80 词元/秒,特别适合实时交互场景。
混元 T1 基于此前发布的 TurboS 快速思维基座,通过大规模强化学习进一步强化了纯推理能力。在训练策略上,96.7% 的算力被投入强化学习训练,并采用课程学习策略逐步增加数据难度和上下文长度。
在公开基准测试中,混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首(DeepSeek-R1 的 97.3 分),在 AIME 2024 测试中更是获得 78.2 分,显著优于 GPT-4.5(36.7 分),展现出在数学逻辑与复杂问题求解方面的优势。不过,该模型在常识推理(GPQA Diamond 69.3 分)方面相对薄弱,低于主流模型均值。
在架构创新方面,混元 T1 通过 Mamba 模块优化了长序列处理能力,其高效计算方式在保证长文本信息捕获的同时,将解码速度提升至同类模型的 2 倍。
价格方面,混元 T1 的 API 服务定价为输入 1 元/百万词元,输出 4 元/百万词元,仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线,面向开发者提供 API 服务,普通用户可通过腾讯元宝 APP 体验,Hugging Face 平台也提供了 Demo 测试空间。
(综合媒体报道)
OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。
语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。
文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。
所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。
(综合媒体报道)
据当地媒体报道,3月14日凌晨,位于新加坡菜市路750C(750C Chai Chee Road)的数据中心发生火灾。
据云数据中心提供商SG.GS发给客户的邮件透露,火灾由一次「爆炸」引发,目前公司已派出工程师进行详细调查。初步检查显示,数据中心的服务器仍在运行,但全面恢复尚需时间。
OpenAI 近日发布了一系列专为构建 AI 智能体(Agents)设计的新工具和 API。此次发布包含五个核心组件,所有功能已经在 API 平台上线。
- Responses API:结合了 Chat Completions API 的简洁性与 Assistants API 的工具使用能力,作为构建 Agent 应用的新基础。这一接口支持新的内置工具和可预测的流式事件,显著简化了项目复杂度。
- Web Search 工具:将 OpenAI 内部使用的联网搜索功能开放给 API,支持获取网络最新信息并自动提供引用。开发者可配置用户位置、搜索强度等参数。GPT-4o 和 GPT-4o-mini 搜索版本在 SimpleQA 测试中分别达到 90% 和 88% 的准确率。
- File Search 工具:支持上传多种格式文件(包括 txt、doc、pdf 等)到 OpenAI 向量库,实现文档检索并自带引用。还支持调整分块大小、过滤元数据和结果重排等高级功能。
- Computer Use Agent (CUA):基于 GPT-4o 模型的多模态工具,允许 AI 通过截图理解界面并执行交互操作,实现自动化任务。支持 9 种基本操作行为,可自动组合执行。在 WebVoyager 基准测试中达到 87% 的成绩。
- Agents SDK:基于 Swarm 框架升级的开源 Agent 开发框架,支持 Agent Loop、智能体间交接、函数工具调用和可视化追踪。兼容任何符合 OpenAI Chat Completions API 的模型,包括第三方模型如 DeepSeek。
价格:
- Web 搜索:GPT-4o 搜索 30 美元/千次查询,GPT-4o-mini 搜索 25 美元/千次
- 文件搜索:2.5 美元/千次查询,文件存储 0.1 美元/GB/天(首 GB 免费)
- 计算机使用工具:输入 3 美元/百万 token,输出 12 美元/百万 token
(综合媒体报道)
当晚,网易云音乐再次发文,表示故障因交换机故障引起。
作为补偿,网易云音乐将赠送7天黑胶VIP给受影响的用户,预计将在3月1日24点前直充到账户。
此前 2024 年 8 月 20 日,网易云音乐也曾因存储故障出现大规模宕机。
OpenAI 于北京时间 2025 年 2 月 28 日凌晨 4 点发布了 GPT-4.5(研究预览版),这是该公司迄今为止规模最大的语言模型。
GPT-4.5 被称为 OpenAI「最大和最好」的聊天模型,其计算效率比 GPT-4 提升了 10 倍以上。与上一代模型相比,GPT-4.5 主打「高情商」,能更自然地理解人类意图并提供更符合人类期望的回答。
在性能方面,GPT-4.5 在简单问答的准确度达到 62.5%,幻觉率降至 37.1%,相比 GPT-4o(61.8%)有明显改善。在专业查询、日常问题和创造性任务方面,GPT-4.5 对比 GPT-4o 的胜率分别为 63.2%、57.0% 和 56.8%。
由于 GPT-4.5 仅经过预训练和人类反馈强化学习(RLHF),并未进行深度推理训练,因此在数学、代码等依赖推理能力的领域表现并不突出。在某些测试中,其表现甚至不如 Claude 3.5 Sonnet 和 DeepSeek V3。
GPT-4.5 的 API 定价为输入每百万 tokens 75 美元,输出每百万 tokens 高达 150 美元,这一价格是 GPT-4o 的 15-30 倍,比 DeepSeek V3 贵出近 272 倍。有信源表示,GPT-4.5 的规模大约是 GPT-4 的 10 倍,因此推理和训练成本都居高不下。
因 GPU 资源不足,GPT-4.5 目前仅向每月 200 美元的 Pro 用户开放,预计下周将向每月 20 美元的 Plus 用户开放。Sam Altman 表示,公司计划下周增加上万块 GPU 以支持更广泛的用户访问。
(综合媒体报道)
阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。
QwQ 具有类似 Claude Artifacts 的界面,支持深度思考和联网搜索功能,并可调用图片生成、二维码生成、天气服务等工具。Qwen 团队表示,将基于 Apache 2.0 开源协议开放 QwQ-Max 和 Qwen2.5-Max 的权重,并计划发布 Android 和 iOS 版专用应用。此外,团队还将推出更小的模型,如可部署在本地设备的 QwQ-32B。
Anthropic 于 2 月 25 日发布了 Claude 3.7 Sonnet,这是全球首个支持双模式推理的人工智能模型。该模型提供标准和扩展思考两种模式:标准模式保持快速响应,适合日常对话;扩展思考模式通过自我反思提升复杂任务表现,特别在数学、物理和编程领域效果显著。在各项基准测试中,Claude 3.7 Sonnet 在编码能力上全面超越 OpenAI 的 o1 和 DeepSeek R1,在软件工程基准 SWE-bench 上创下 70.3% 的纪录。
同步推出的 Claude Code 命令行工具支持测试驱动开发、复杂调试与代码重构,官方演示显示它可自动化处理 45 分钟以上人工编程任务。目前所有 Claude 套餐都已可使用新模型,但扩展思考模式仅向付费用户开放。定价保持不变:每百万输入词元 3 美元,输出词元 15 美元。
Claude 3.7 Sonnet 目前立即对所有用户可用,API 同步上线。
Qwen2.5-Max 是阿里云于 1 月 29 日推出的最新 MoE 基座模型,各项能力指标表现突出,超越 DeepSeek-V3 和 GPT-4o。基于 Qwen2.5-Max 的推理模型预计也将拥有不俗的性能。
北京时间 2 月 20 日凌晨,苹果正式发布 iPhone 16e,起售价 4499 元。作为 iPhone 16 系列的新成员,iPhone 16e 搭载了苹果自研的 C1 调制解调器芯片,并支持 Apple Intelligence 功能。
iPhone 16e 采用 6.1 英寸 OLED 屏幕,配备 A18 芯片,但 GPU 核心数从 iPhone 16 的 5 核缩减至 4 核。后置摄像头为 4800 万像素单摄,不支持微距摄影、空间视频等功能。该机还配备了操作按钮,支持 USB-C 接口(USB 2.0)和 Qi 无线充电,但不支持 MagSafe 磁吸和 Qi2。
苹果表示,C1 芯片是「iPhone 迄今能效最高的调制解调器」,相比现有 5G 解决方案可提升 25% 的能效。得益于 C1 芯片,iPhone 16e 的续航时间达到 26 小时,超越 iPhone 16 的 22 小时。
iPhone 16e 将于 2 月 21 日晚 9 点开启预售,2 月 28 日正式发售。
(综合媒体报道)
——————
与此同时,苹果在发布会中预告,Apple Intelligence 将于四月支持中文,但未有明确是否会如期在中国大陆地区上线。
据@M1, Claude iOS应用的最新更新已经出现如「Steps」和「Think」等关键词。
为 Claude 增加网页搜索功能的计划曾在一月被Anthropic CEO Dario Amodei 确认为是「公司的优先事项」。
——————
多个媒体预计,Anthropic 计划在二月底或三月初发布新进展,最早的可能时间窗口是 2 月 24 日,但目前官方暂未透露任何信息。
xAI 正式发布新一代大语言模型 Grok 3,该模型基于 20 万张英伟达 H100 GPU 构建的 Colossus 超级计算机训练,计算量是 Grok 2 的 10 倍,成为目前已知训练算力最大的模型之一。
Grok 3 系列包含 Grok 3 和 Grok 3 mini 两个版本,均支持推理模式。其中,Grok 3 mini Reasoning 已完成训练,Grok 3 Reasoning Beta 仍在测试中。推理模式允许模型在更长的推理时间和更多词元 (Token) 的支持下完成复杂任务。
性能方面,Grok 3 在数学(AIME 2024)、科学(GPQA)和编程(LCB)等多项基准测试中表现出色,超越了 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini 2 Pro 等模型;并以 1402 分登顶 LMSYS 榜单,成为首个突破 1400 分的模型。
功能方面,Grok 3 的推出同时包含以下新功能:
- Think 模式:展示完整推理链条
- Big Brain 模式:调用额外算力解决复杂问题
- DeepSearch:实现多源信息交叉验证
价格方面,X平台Premium+订阅费用从22美元大幅上调至40美元,新增的SuperGrok独立订阅服务定价30美元,提供无限次的深度搜索和优先体验权限。企业 API 将于 3 月开放。
语音模式则因「稳定性问题」推迟一周发布。xAI工程师在社交媒体透露,延迟主要源于方言口音识别的准确度问题。
提前获得内测资格的知名AI研究员Karpathy指出,该模型在代码生成和复杂问题拆解方面接近OpenAI收费200美元/月的o1-pro水平,但在伦理敏感问题上仍显保守,拒绝回答涉及道德困境的假设性问题。xAI 承诺将在未来数月开源 Grok 2 模型,并持续优化当前系统的逻辑一致性。
(综合量子位、机器之心、CNBC 报道)