阿里开源全模态大模型 Qwen2.5-Omni-7B阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B，该模型支持文本、图像、音频、视频（无音频轨）的多模态输入，并能实时生成文本或自然语音的流式响应

一个小站的自留地

阿里 Qwen 首个推理模型发布，擅长数学和编程，将推出独立应用阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持，基于 Qwen2.5-Max 构建，在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中，QwQ-Max-Preview 预览版排名第 5，超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。 QwQ 具有类似 Claude…

阿里开源全模态大模型 Qwen2.5-Omni-7B

阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B，该模型支持文本、图像、音频、视频（无音频轨）的多模态输入，并能实时生成文本或自然语音的流式响应。目前，该模型已在 HuggingFace 平台以 Apache 2.0 协议开源，可免费商用。

Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话，而模型能实时输出文本和语音响应。该模型仅有 70 亿参数（70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数），最高支持 32K 输入长度和 8K 输出长度，响应速度非常快，官方演示显示时延极小。

在训练方面，Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练，包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据，并使用额外的纯文本数据保持语言能力。

模型采用创新的 Thinker-Talker 架构，通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解，集成了视觉编码器（ViT）和音频编码器（Qwen2-Audio），能动态处理各类输入；Talker 模块则专注于流式语音生成，通过因果式解码器和滑动窗口机制实现低延迟语音输出。

在性能评测上，Qwen2.5-Omni-7B 表现出色。在单模态评测中，其语音识别（ASR）能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%，视频理解方面在 Video-MME 的评测达到 72.4，优于 GPT-4o-mini。在文本理解方面，MMLU Pro 的评测结果与 Llama3.1-8B 接近，虽然低于 Gemma2-9B 和 Claude 3 Haiku，但超过了 Qwen2.5 7B。

（DataLearner）