阿里开源 Qwen3 系列模型，最小仅 6 亿参数，最大达 2350 亿参数4 月 29 日，阿里巴巴开源了第三代千问大模型 Qwen3 系列，一口气发布了 8 个不同参数规模的模型

一个小站的自留地

据媒体报道，阿里最快将于本月中旬发布旗舰模型的升级版，大概率是 Qwen 3。

阿里开源 Qwen3 系列模型，最小仅 6 亿参数，最大达 2350 亿参数

4 月 29 日，阿里巴巴开源了第三代千问大模型 Qwen3 系列，一口气发布了 8 个不同参数规模的模型。其中包括 6 个稠密模型和 2 个混合专家模型（MoE），覆盖从手机端到企业级服务器的各种应用场景：最小的 Qwen3-0.6B 仅有 6 亿参数，量化后只需 0.6GB 显存；最大的旗舰模型 Qwen3-235B-A22B 总参数量达 2350 亿，推理时激活 22 亿参数。

Qwen3 系列最大的创新是支持混合推理模式，通过 enable_thinking 参数控制，用户可将同一模型切换为快速响应或深度思考模式。对数学、编程等需要逻辑推理的问题启用思考模式，而摘要等简单任务则使用非推理模式提升速度。

在性能方面，旗舰模型 Qwen3-235B-A22B 在 LiveCodeBench 编程评测中得分达 70.7 分，超过了 OpenAI 的 o1、DeepSeek-R1 等顶级模型。体积较小的 Qwen3-4B 性能已可媲美上一代的 Qwen2.5-72B-Instruct。此外，Qwen3 系列支持 119 种语言（上一代仅 29 种），强化了 Agent 能力和 MCP 协议支持，并将上下文窗口扩展至最大 128K。

所有 Qwen3 系列模型均采用 Apache 2.0 协议开源，完全免费商用，部署成本约为 DeepSeek-R1 的三分之一。用户可在 Hugging Face、ModelScope 和 Kaggle 等平台获取模型权重。

（DataLearner）