一个小站的自留地
商汤「日日新5.0」中文基准测评出炉,总分80.03刷新最好成绩,文科能力领跑 在SuperCLUE综合基准上,SenseChat V5表现不俗,以总分80.03分的优异成绩刷新国内最好成绩(通义千问2.5取得总分74.93分 ,GPT-4o得分为81.73),并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。 在本次测评中,理科任务上SenseChat V5取得国内最好成绩,较GPT-4-Turbo-0125低4.35分,还有一定提升空间;文科任务上SenseChat V5表现十分…
百川智能「Baichuan 4」中文基准测评出炉,在SuperCLUE综合基准上,以总得分80.64分刷新了国内记录,也接近GPT-4o的81.73。

在中文综合能力测试中,「Baichuan 4」以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。

在理科任务上,Baichuan 4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。其中,逻辑推理(74.4分)和工具使用(80.8分)均刷新国内最好成绩。

在文科任务中,Baichuan 4以83.12分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。知识百科(89.8分)、长文本(80.8分)、生成创作(83.4分)、传统安全(90.2分)均刷新国内最好成绩。

——————

然而有网友认为,近期商汤「日日新5.0」和百川智能「Baichuan 4」等国产大模型屡屡「刷榜」,模型能力进步跨度过大,也有充值推广的嫌疑,实际模型使用体验还在存疑状态。

阿里云的通义千问2.5 模型,此前在SuperCLUE综合基准上取得总分74.93分;而零一万物在国外冲榜的开源大模型「Yi-Large」则获得74.29 分。
 
 
Back to Top