关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:01277人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马科斯与特朗普见面被指空手而归 美对菲关税仅下降1%

环球网资讯 浏览 9130 07-24

淘宝闪购日订单连续两个周末超9000万,超30万非餐门店生意突破峰值

北青网-北京青年报 浏览 5380 07-29

新物种!元戎启行发布DeepRoute IO 2.0平台及VLA模型

网易汽车 浏览 448 08-27

“中国炊具第一股”在挣扎

网易财经 浏览 7302 07-25

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

静儿时尚达人 浏览 169 02-28

美方换新招威胁印度不成掉头针对中国 正考虑对华加税

博览历史 浏览 646 08-12

AI产业迅速发展需求增长 光模块市场或仍将维持高增速

金证研 浏览 2171 07-17

泽连斯基:俄军向乌克兰一家美国企业发射导弹

每日经济新闻 浏览 538 08-22

暑期档、宗庆后、演唱会捉出轨、武大风波、释永信等

电影最TOP 浏览 1777 08-08

智慧养殖+食品放量双轮驱动 天马科技烤鳗销量增72%

时代周报 浏览 472 08-27

泰柬两国密集表态说法大相径庭 泰国称不会停止行动

环球网资讯 浏览 219 12-15

全域900V高压架构 乐道L90将于7月31日上市

车质网 浏览 4008 07-22

佩杜拉:那不勒斯与切尔西就斯特林展开了频繁的接触

懂球帝 浏览 1172 07-25

最大功率160kW 广州车展上市 零跑Lafa5申报信息公布

网易汽车 浏览 340 09-12

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 312 10-12

何超琼身价突破700亿,手里的包包成为亮点

素素娱乐 浏览 177 02-24

“一言不发”的唐嫣,给娱乐圈上了一课

李橑在北漂 浏览 211 01-18

今年最流行的5双凉鞋,怎么搭都好看

LinkFashion 浏览 4627 06-11

9系大六座旗舰SUV又添一员,智己LS9预售33.69万起

网易汽车 浏览 279 11-05

队报:如三天之内敲定不了卢克曼,国米将转向别的目标

懂球帝 浏览 7958 07-29

贾玲《转念花开》杀青,各种阴阳声不断,红眼病这是治不好了?

最爱酷影视 浏览 478 08-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11