一个小站的自留地
商汤「日日新5.0」中文基准测评出炉,总分80.03刷新最好成绩,文科能力领跑 在SuperCLUE综合基准上,SenseChat V5表现不俗,以总分80.03分的优异成绩刷新国内最好成绩(通义千问2.5取得总分74.93分 ,GPT-4o得分为81.73),并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。 在本次测评中,理科任务上SenseChat V5取得国内最好成绩,较GPT-4-Turbo-0125低4.35分,还有一定提升空间;文科任务上SenseChat V5表现十分…
SuperCLUE团队发布「中文大模型基准测评2024上半年报告」

SuperCLUE团队刚刚发布了《中文大模型基准测评2024年上半年报告》,对33个国内外主流大语言模型在中文场景下的表现进行了全面评测。该报告涵盖了通用能力、多模态能力以及多个行业垂直领域的测评结果。主要亮点如下:

- 国内外大模型差距显著缩小。OpenAI的GPT-4o以81分领跑SuperCLUE基准测试,但国内顶尖模型如Qwen2-72B-Instruct、国外的Claude-3.5-Sonnet-200k等已将差距缩小至5%以内,均获得77分。报告显示,国内外模型的差距从2023年5月的30.12%逐步缩小到2024年3月的4.94%。

- 国内开源模型实力大增。阿里云开源的Qwen2-72B-Instruct模型登顶SuperCLUE榜单,超越多个国内外闭源模型。在开源模型中,Qwen2-72B、Yi-1.5-34B和qwen2-7b表现尤为出色

- 各任务表现各有特色。报告通过雷达图展示了国际最优模型与国内最优模型在11个能力维度上的对比。在文科任务中,国内模型如Qwen2-72B达到76分,与GPT-4o并列第一。在理科任务中,GPT-4o领先优势更为明显。在Hard任务(如精确指令遵循)中,Claude-3.5表现突出。

- 端侧小模型表现惊艳。如qwen2-7b(70亿参数)的表现超过了上一代qwen1.5-32b(320亿参数),qwen2-1.5b(15亿参数)甚至超越了Llama-2-13B-Instruct(130亿参数)。这一趋势极大提升了大模型在端侧设备上的落地可能性。

- 行业垂直领域测评显示国内模型竞争力。报告针对金融、汽车、工业等多个垂直领域进行了专门测评。如在金融领域,Baichuan3、GLM-4和MoonShot-v1-128K均获得A级评价,仅次于GPT-4 Turbo的A+评级。在汽车行业测评中,多个国产模型表现不俗,显示出在特定领域的应用潜力。

- 多模态能力测评结果发布。在AIGVBench文生视频测评中,字节跳动的Dreamina即梦以72.99分位列榜首。在SuperCLUE-Image文生图测评中,百度文心一格和vivo的BlueLM-Art表现优异。(编注:此小项海外模型不参与排名)

- 模型能力矩阵分析。报告通过应用能力与基础能力矩阵,将模型分为四个象限:实用主义者、卓越领导者、潜力探索者和技术领跑者。其中,GPT-4o、Claude-3.5、Qwen2-72B等模型位于"卓越领导者"象限,显示出在基础能力和应用能力上的全面优势。


此外,报告还发布了「琅琊榜」匿名对战平台的最新结果。在该平台上,MiniMax的abab6.5-chat、智谱AI的GLM-4和零一万物的yi-large-preview等模型表现出色。报告还分析了这些模型的性价比,为用户选择提供了参考。(编注:此单项不包含开源模型和海外模型)

(SuperCLUE)

——————

以下是本频的一家之言:

「国内外模型的差距从2023年5月的30.12%逐步缩小到2024年3月的4.94%」这个数据,哪怕可能带有那么一点点水分,但至少趋势是有目共睹的。国内外在大模型方面的差距真的在肉眼可见地缩小。

这份榜单里的国产大模型之光,通义千问的开源模型Qwen2-72B绝对是当之无愧。作为已经发布了一段时间(首秀于 6 月 4 日,开源于 6 月 7 日)的开源模型,能够无限趋近Claude-3.5-Sonnet(发布于 6 月 21 日),真的是一件很值得称赞的事情。反观传统的以「人工智能」标榜自己的互联网大厂百度和科大讯飞,在大模型领域的话语权真的是越来越弱了。如果不是靠媒体通稿轰炸,想必世界上没有几家公司会选用他们两家的大模型。且不说别的,文心一言4.0,一个在官网上需要付费才能用的,自带「联网」功能的大模型,在知识百科领域居然比不过离线的GPT-4o(SuperCLUE 使用 API 进行测试),真不知道是百度的在线搜索太差了,还是这个大模型的基础能力实在拉跨。

多模态模型方面,国内的大厂们,特别是手握大量视频资源的大厂们,做出的成绩令人称奇。但可惜不管是字节还是快手,手握的长视频资源都不够多,我认为要做到所谓「Sora」宣传的效果还需要一段时间的努力。(当然,从种种迹象来看,Sora 目前还不能和行业龙头Runway Gen-3 拉开过多差距)

国外模型方面,GPT-4o 不出所料拿下几乎全部第一,唯一的弱点是「传统安全」,这一点何其唏嘘。奥特曼如果再继续带领 OpenAI 一味奔着搞钱而去,忽视模型的传统安全问题,我相信再有科学家出走也是迟早的事。在这一背景下,GPT-5 的发布我认为就更加急不得了。

前一段时间我们总说大模型的训练缺数据,但现如今看起来,各家似乎都找到了各自的解决方案。一个是互联网公开的数据集本就不少,难点应在与数据的清洗和选择;再一个是国内众多下场做大模型的厂商背靠大厂,自己手里没点语料是不可能的,毕竟那些隐私政策早就为现在的行为铺好了路。

国内大语言模型,咱先不说多模态,当前最需要追赶的细分项目我认为是「精确指令遵循」。都说当下 AI 产品的 Bug,随着基础模型的升级可能就慢慢消失了,这其中非常依赖模型指令遵循能力的提升。能够在长文本输出状态下精确遵循复杂指令,可比单纯的大海捞针难多了,但也有用得多。GPT-4o 用 API 调用时长文本能力是没问题的,问题就在于网页版给的上下文窗口是阉割后的结果,因此实际使用体验完全不如竞品,而使用 API 调用长文本对于个人来说无论是学习还是金钱成本都太高了。
 
 
Back to Top