Llama3.1 中文能力基准测试：超过GPT-4 Turbo，弱于GPT-4oMeta于7月23日发布Meta Llama 3.1 405B，并认为这是世界上最大、功能最强大的开源基础模型

一个小站的自留地

据信是 Llama 3-405B 的模型以及基准测试成绩已经被泄露。网友整理的模型下载地址： https://x.com/kimmonismus/status/1815314833236984274 从泄露的基准测试成绩来看，Llama 3-405B 模型在大多数方面优于 GPT-4o，这一结果或侧面表面 GPT-4o 模型蒸馏后的模型参数小于这一量级。据新智元报道，除了最大的405B，Meta这次还升级了5月初发布的8B和70B模型，并将上下文长度全部提升到了128K。至此，模型版本也正式从Llama…

Llama3.1 中文能力基准测试：超过GPT-4 Turbo，弱于GPT-4o

Meta于7月23日发布Meta Llama 3.1 405B，并认为这是世界上最大、功能最强大的开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。

SuperCLUE选取了中文推理相关的核心任务进行了深入测评：

- 在完成SuperCLUE推理任务时，Llama 3.1 405B的整体得分为88.44，超过GPT-4 Turbo，仅次于GPT-4o，暂据排行榜第二。

- Llama 3.1 405B在SC-Math6数学基准上得分91.19分，判定为推理等级5，与GPT-4o相比仅有0.58分的差距，领先其他模型。

- Llama 3.1 405B在SC-Code3代码基准上得分69.68分，接近70分，较GPT-4 Turbo略高（0.11分），与GPT-4o有一定差距（2分）。

（SuperCLUE）