Meta 于 2025 年 4 月 5 日发布并开源了其最新的 Llama 4 系列人工智能模型,标志着 Llama 系列首次采用混合专家 (Mixture of Experts, MoE) 架构并原生支持多模态能力 。此次发布了 Llama 4 Scout 和 Llama 4 Maverick 两款模型,同时预告了更大规模的 Llama 4 Behemoth 模型 。
Llama 4 Scout 是一款拥有 16 个专家、170 亿激活参数 (总参数约 1090 亿) 的 MoE 模型 。其 Int4 量化版本可在单张 NVIDIA H100 GPU 上运行 。该模型最大的亮点之一是支持业界领先的 1000 万 词元 (token) 上下文窗口。
Llama 4 Maverick 同样拥有 170 亿激活参数,但配备了 128 个专家,总参数量达到 4000 亿。
这两款模型均通过知识蒸馏自 Llama 4 Behemoth,后者是一个拥有 16 个专家、2880 亿激活参数、总参数量近 2 万亿的教师模型,目前仍在训练中。
Llama 4 系列采用了多项新技术,包括 MoE 架构、通过早期融合实现的原生多模态、改进的基于 MetaCLIP 的视觉编码器、名为 MetaP 的超参数设置技术、FP8 精度训练、通过中期训练扩展上下文长度以及名为 iRoPE 的长上下文架构 。后训练流程也经过改进,采用轻量级监督微调 (SFT) > 在线强化学习 (RL) > 轻量级直接偏好优化 (DPO) 的策略 。模型在超过 30 万亿 词元 (token) 的多样化文本、图像和视频数据集上进行了预训练,涵盖 200 种语言 。
Llama 4 Scout 和 Llama 4 Maverick 模型目前已在 llama.com 和 Hugging Face 开放下载 。
(Meta AI Blog)
——————
Llama 4 发布后,互联网普遍表示失望。有自称 Llama 团队内部人士透露,Llama 项目倾尽了团队的所有资源,但仍然未能达到 SOTA,因此团队选择将其所有语料投入后训练中,目前看来仍然收效甚微。该网友表示,Llama 4 将成为自己「简历上的污点」。
与此同时,网友体验大多负面,认为 Llama 的体积与其性能严重错配,甚至不如体积小得多的 Qwen 模型。