百川智能「Baichuan 4」中文基准测评出炉，在SuperCLUE综合基准上，以总得分80.64分刷新了国内记录，也接近GPT-4o的81.73

一个小站的自留地

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑在SuperCLUE综合基准上，SenseChat V5表现不俗，以总分80.03分的优异成绩刷新国内最好成绩（通义千问2.5取得总分74.93分，GPT-4o得分为81.73），并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。在本次测评中，理科任务上SenseChat V5取得国内最好成绩，较GPT-4-Turbo-0125低4.35分，还有一定提升空间；文科任务上SenseChat V5表现十分…

百川智能「Baichuan 4」中文基准测评出炉，在SuperCLUE综合基准上，以总得分80.64分刷新了国内记录，也接近GPT-4o的81.73。

在中文综合能力测试中，「Baichuan 4」以1.51分的领先优势超过了GPT-4-Turbo-0125，展现了其在大模型方面的强大实力。

在理科任务上，Baichuan 4虽然以国内最佳成绩领先，但与GPT-4-Turbo-0125相比还有4.23分的差距，显示出进一步优化的空间。其中，逻辑推理（74.4分）和工具使用（80.8分）均刷新国内最好成绩。

在文科任务中，Baichuan 4以83.12分的高分不仅领先国内，也是国际上的最高分，比GPT-4-Turbo-0125高出5.33分，验证了其在文科领域的卓越能力。知识百科（89.8分）、长文本（80.8分）、生成创作（83.4分）、传统安全（90.2分）均刷新国内最好成绩。

——————

然而有网友认为，近期商汤「日日新5.0」和百川智能「Baichuan 4」等国产大模型屡屡「刷榜」，模型能力进步跨度过大，也有充值推广的嫌疑，实际模型使用体验还在存疑状态。

阿里云的通义千问2.5 模型，此前在SuperCLUE综合基准上取得总分74.93分；而零一万物在国外冲榜的开源大模型「Yi-Large」则获得74.29 分。