一个小站的自留地
阿里 Qwen 首个推理模型发布,擅长数学和编程,将推出独立应用 阿里通义 Qwen 团队于 2 月 25 日在其网页版对话平台上推出了首个推理模型——深度思考 (QwQ)。该模型由 QwQ-Max-Preview 支持,基于 Qwen2.5-Max 构建,在数学理解、编程、AI 智能体等领域表现优异。在 LiveCodeBench 编程测试中,QwQ-Max-Preview 预览版排名第 5,超过了 OpenAI 的 o1 中档推理版本和 DeepSeek-R1 预览版。 QwQ 具有类似 Claude…
阿里开源全模态大模型 Qwen2.5-Omni-7B

阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入,并能实时生成文本或自然语音的流式响应。目前,该模型已在 HuggingFace 平台以 Apache 2.0 协议开源,可免费商用。

Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话,而模型能实时输出文本和语音响应。该模型仅有 70 亿参数(70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数),最高支持 32K 输入长度和 8K 输出长度,响应速度非常快,官方演示显示时延极小。

在训练方面,Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练,包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据,并使用额外的纯文本数据保持语言能力。

模型采用创新的 Thinker-Talker 架构,通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解,集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能动态处理各类输入;Talker 模块则专注于流式语音生成,通过因果式解码器和滑动窗口机制实现低延迟语音输出。

在性能评测上,Qwen2.5-Omni-7B 表现出色。在单模态评测中,其语音识别(ASR)能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%,视频理解方面在 Video-MME 的评测达到 72.4,优于 GPT-4o-mini。在文本理解方面,MMLU Pro 的评测结果与 Llama3.1-8B 接近,虽然低于 Gemma2-9B 和 Claude 3 Haiku,但超过了 Qwen2.5 7B。

(DataLearner)
 
 
Back to Top