关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:0170人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中方连对美"重拳出击" 特朗普这才看清楚中国留了一手

空天力量 浏览 115 10-13

广东晋级决赛杜锋谈辽粤大战:广东后场接过接力棒,传承篮球使命

篮球资讯达人 浏览 54 11-12

关晓彤代言,啤酒巨头大赚11个亿

21财闻汇 浏览 322 08-12

DeepSeek开源新模型:单张A100日处理可超20万页数据

第一财经资讯 浏览 107 10-21

DeepSeek线上模型版本升级至V3.1

澎湃新闻 浏览 252 08-20

六大女星同框比美!身材越好越抢眼,关晓彤不及娜扎输在没锁骨

萌神木木 浏览 3175 07-30

以超600名前高官致信特朗普 呼吁其施压以总理停战

环球网资讯 浏览 7772 08-05

近距离感受国之重器:第一视角看亚洲首个电磁弹射微重力实验装置

IT之家 浏览 131 10-13

老太夜晚失足落水:5位邻居接力救人 最年长一位78岁

潇湘晨报 浏览 294 08-17

和巴萨的关系如何?特尔施特根:我与俱乐部的关系依然很好

懂球帝 浏览 4518 07-29

印度无视特朗普威胁"坚持买俄油" 莫迪呼吁推"国货"

环球网资讯 浏览 9356 08-04

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻 浏览 110 10-22

赵露思掀桌对抗资本风波,商业价值觉醒之路

东方不败然多多 浏览 6456 08-08

黄仁勋身家超过巴菲特

21世纪经济报道 浏览 7761 07-14

美国截至3月的一年非农就业总人数下修91.1万人

界面新闻 浏览 188 09-10

氢能压缩机变钢琴节拍器?成都航空工匠“跨界”挑战

封面新闻 浏览 8099 07-30

深圳,最狠的一次升级

博闻财经 浏览 1844 08-10

常规赛先发水平!小乔治18中10&三分9中3砍24分7板3助3断

直播吧 浏览 6779 07-12

16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下

量子位 浏览 280 08-20

刘强东出席中欧企业家座谈会,京东积极投身中欧经贸合作

时代周报 浏览 2067 07-26

特朗普被指曾私下鼓动泽连斯基打击莫斯科 白宫回应

环球网资讯 浏览 2087 07-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11