商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑在SuperCLUE综合基准上，SenseChat V5表现不俗，以总分80.03分的优异成绩刷新国内最好成绩（通义千问2.5取得总分74.93分，GPT-4o得分为81.73），并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分

一个小站的自留地

5 月9日，阿里云召开峰会，正式发布通义千问2.5，模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。（券商中国）另据 SuperCLUE 的测评结果，通义千问2.5取得总分74.93分，与GPT-4 Turbo仍有一定差距，相差5.21分。其他如编码和数学能力也有差距，但值得一提的是数学能力位居国内大模型第一。

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑

在SuperCLUE综合基准上，SenseChat V5表现不俗，以总分80.03分的优异成绩刷新国内最好成绩（通义千问2.5取得总分74.93分，GPT-4o得分为81.73），并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。

在本次测评中，理科任务上SenseChat V5取得国内最好成绩，较GPT-4-Turbo-0125低4.35分，还有一定提升空间；文科任务上SenseChat V5表现十分出色，以82.20分取得国内外最高分。

（SuperCLUE）