在中文综合能力测试中,「Baichuan 4」以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。
在理科任务上,Baichuan 4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。其中,逻辑推理(74.4分)和工具使用(80.8分)均刷新国内最好成绩。
在文科任务中,Baichuan 4以83.12分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。知识百科(89.8分)、长文本(80.8分)、生成创作(83.4分)、传统安全(90.2分)均刷新国内最好成绩。
——————
然而有网友认为,近期商汤「日日新5.0」和百川智能「Baichuan 4」等国产大模型屡屡「刷榜」,模型能力进步跨度过大,也有充值推广的嫌疑,实际模型使用体验还在存疑状态。
阿里云的通义千问2.5 模型,此前在SuperCLUE综合基准上取得总分74.93分;而零一万物在国外冲榜的开源大模型「Yi-Large」则获得74.29 分。