参考指南

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

男子在狱中病...

缅甸果敢徐发...

全球首个峰值...

理想改配！李...

全新一代丰田...

梦回乔丹时代...

理想侵权“ 歼-20”等军机，涉虚假宣传，被要求道歉！

中年女人夏天别瞎穿，这三招让你减龄不扮嫩，收获满满的夸赞

将于6月上市上汽大众途观L ePro谍照曝光

X把伊朗国旗改成狮子太阳旗哈梅内伊把＂国旗＂删了

90天谈判期“徒劳无功”，特朗普急了

FLX1s Linux 手机发布：预装基于 Debian 的 FuriOS，550 美元

大号手机确认！华为MatePad Mini外观揭晓能打电话的小平板来了

“我可能会被赶下台！”马斯克自曝或被激进股东夺权，失去对特斯拉的控制

插混，到底有没有未来？

别羡慕自由职业者了

大陆制裁3家涉对台军售美企国台办回应

助力识别、延缓或逆转老年疾病，全新“自然奖项”问世

欧盟宣布对5家中国企业实施制裁外交部回应

浙江副部级＂老虎＂落马其曾经的下属于6月主动投案

想年前用3周“刷新”好状态？做第一点就够

邓超父子与姚明看球赛，三人坐一起如同WiFi信号

澳大利亚国立大学发现：攻击AI视觉模型只需要操控20%的关键词汇

smart精灵#3艺术特别版上市售18.49万

特斯拉前全球销售主管爆猛料

职工去上班被洪水冲走未被认定工伤家属起诉法院判了

赵薇传来1个好消息1个坏消息

革命剧看八一厂就对了，陈龙饰周恩来，张一山演林彪，将上线央视

深夜，特斯拉暴跌！特朗普将视察美联储，近20年来首次

吃出蚯蚓、安全存疑、背刺现制：一年卖出30亿只的“饺子大王”，为何翻车？