阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入,并能实时生成文本或自然语音的流式响应。目前,该模型已在 HuggingFace 平台以 Apache 2.0 协议开源,可免费商用。
Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话,而模型能实时输出文本和语音响应。该模型仅有 70 亿参数(70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数),最高支持 32K 输入长度和 8K 输出长度,响应速度非常快,官方演示显示时延极小。
在训练方面,Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练,包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据,并使用额外的纯文本数据保持语言能力。
模型采用创新的 Thinker-Talker 架构,通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解,集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能动态处理各类输入;Talker 模块则专注于流式语音生成,通过因果式解码器和滑动窗口机制实现低延迟语音输出。
在性能评测上,Qwen2.5-Omni-7B 表现出色。在单模态评测中,其语音识别(ASR)能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%,视频理解方面在 Video-MME 的评测达到 72.4,优于 GPT-4o-mini。在文本理解方面,MMLU Pro 的评测结果与 Llama3.1-8B 接近,虽然低于 Gemma2-9B 和 Claude 3 Haiku,但超过了 Qwen2.5 7B。
(DataLearner)