关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:0168人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印学者回应印度将成世界第三大经济体:数据准确性存疑

红星新闻 浏览 6835 05-29

上新好丽友的山姆到底得罪谁了?

江瀚视野 浏览 983 07-17

河北滦平发生山体滑坡4人遇难8人失联

央视新闻客户端 浏览 3112 07-29

5999元起,最贵17999元!苹果重大发布

证券时报 浏览 203 09-10

Win11将聚焦情境感知 AI,支持语音视觉等多模态交互

IT之家 浏览 235 08-19

对话 vivo OS 产品副总裁:AI 不会产生新的需求,通往远方是马车还是蒸汽机是产品形式问题

爱范儿 浏览 132 10-11

再遭证监会立案调查!毛利率跌超八成!这家公司退市风险高悬!

IPO日报 浏览 7104 07-30

女子例假结束去游泳大出血向场馆索赔 涉事游泳馆回应

红星新闻 浏览 6775 08-07

55岁"九头身"拉丁舞裁判走红 网友:腿长到镜头装不下

新民周刊 浏览 327 08-12

美被指允许恢复向中国商飞供喷气发动机

环球网资讯 浏览 9831 07-04

49岁男星失联12年!录节目受伤压迫神经半身瘫痪,不愿现身露病容

萌神木木 浏览 596 07-21

十月稻田被调出港股通,短期波动与长期潜力的价值重估

证券市场周刊 浏览 184 09-11

空调市场“老二”之争:小米让格力电器“抖了抖”,董明珠岂能坐视不管?

时代周报 浏览 255 08-21

被残疾拾荒者胡雷资助的女孩离世 胡雷:我的心好痛

新京报 浏览 286 08-24

中科闻歌WAIC 2025亮眼表现

脑极体 浏览 7737 07-30

韩海警营救中国公民殉职 李在明下令调查增援是否延误

红星新闻 浏览 225 09-17

开播第一晚收视率破2.5!连刷4集!我想说: 这部刑侦剧要火向全国

娱乐圈笔娱君 浏览 1193 07-14

伊姐周日热推:电影《名侦探柯南:独眼的残像》;电影《F1: 狂飙飞车》......

伊周潮流 浏览 590 07-08

发改委:创业投资类基金要围绕发展新质生产力

国家发展改革委 浏览 4272 07-30

蔚来2025年1季度报出炉 营收120亿元同比增21%

网易汽车 浏览 272 06-04

农村出现医保"退保潮"?国家医保局回应

新华社 浏览 7020 05-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11