一个小站的自留地
据媒体报道,阿里最快将于本月中旬发布旗舰模型的升级版,大概率是 Qwen 3。
阿里开源 Qwen3 系列模型,最小仅 6 亿参数,最大达 2350 亿参数

4 月 29 日,阿里巴巴开源了第三代千问大模型 Qwen3 系列,一口气发布了 8 个不同参数规模的模型。其中包括 6 个稠密模型和 2 个混合专家模型(MoE),覆盖从手机端到企业级服务器的各种应用场景:最小的 Qwen3-0.6B 仅有 6 亿参数,量化后只需 0.6GB 显存;最大的旗舰模型 Qwen3-235B-A22B 总参数量达 2350 亿,推理时激活 22 亿参数。

Qwen3 系列最大的创新是支持混合推理模式,通过 enable_thinking 参数控制,用户可将同一模型切换为快速响应或深度思考模式。对数学、编程等需要逻辑推理的问题启用思考模式,而摘要等简单任务则使用非推理模式提升速度。

在性能方面,旗舰模型 Qwen3-235B-A22B 在 LiveCodeBench 编程评测中得分达 70.7 分,超过了 OpenAI 的 o1、DeepSeek-R1 等顶级模型。体积较小的 Qwen3-4B 性能已可媲美上一代的 Qwen2.5-72B-Instruct。此外,Qwen3 系列支持 119 种语言(上一代仅 29 种),强化了 Agent 能力和 MCP 协议支持,并将上下文窗口扩展至最大 128K。

所有 Qwen3 系列模型均采用 Apache 2.0 协议开源,完全免费商用,部署成本约为 DeepSeek-R1 的三分之一。用户可在 Hugging Face、ModelScope 和 Kaggle 等平台获取模型权重。

(DataLearner)
 
 
Back to Top