“XX发布最强开源大模型,多项基准测试全面超越XX等闭源模型!”
“万亿参数开源模型XX强势登顶全球开源模型榜首!”
“国产之光!XX模型在中文评测榜单拿下第一!”
随着AI时代的到来,各位的朋友圈、微博等社交平台是不是也常常被诸如此类的新闻刷屏了?
今天这个模型拿到了冠军,明天那个模型变成了王者。评论区里有的人热血沸腾,有的人一头雾水。
一个又一个的现实问题摆在眼前:
这些模型所谓的“登顶”比的是什么?谁给它们评分,而评分的依据又是什么?为什么每个平台的榜单座次都不一样,到底谁更权威?
如果各位也产生了类似的困惑,说明各位已经开始从“看热闹”转向“看门道”。
本文之中,我们便来拆解一下不同类型“AI竞技场”——也就是大语言模型排行榜——的“游戏规则”。
01 类