百度正式宣布开源其最新的旗舰级大模型系列 ERNIE 4.5,这是一个包含 10 个不同变体的大规模多模态模型家族。该系列包含 2 个多模态大模型和 4 个大语言模型,共计 23 个模型版本,其中最大模型拥有 4240 亿参数,47B 活跃参数。
ERNIE 4.5 采用了创新的异构多模态混合专家(MoE)架构,支持跨模态参数共享的同时,也为每个模态保留专用参数。这种设计在提升多模态理解能力的同时,实现了文本处理性能的同步增强。模型支持图像、视频和文本等多种输入模态,并生成文本输出。
在技术创新方面,ERNIE 4.5 在三个关键领域实现了突破:多模态异构 MoE 预训练、高效扩展的基础设施,以及针对特定模态的后训练。该模型在预训练阶段达到了 47% 的模型 FLOPs 利用率(MFU),在 2016 块 NVIDIA H800 GPU 上实现了高效训练。
性能评测显示,ERNIE 4.5 在指令遵循、世界知识记忆、视觉理解和多模态推理等方面表现出色。在传统基准测试如 MMLU、MMLU Pro 等任务上,该模型与当前最强的 DeepSeek-V3、Qwen 等模型不相上下。然而在更具挑战性的新评测任务如 AIME、LiveCodeBench 等方面,表现相对一般。
本次开源遵循 Apache 2.0 协议,意味着开发者可以自由进行商业化使用和二次开发。百度还同时开源了完整的开发工具链,包括 ERNIEKit 训练工具包和 FastDeploy 推理部署工具包,涵盖从训练、微调到部署的全栈能力。模型提供了 PyTorch 和 PaddlePaddle 两个版本,以满足不同开发者的需求。
(技术报告)