关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2025-11-09 00:00:0156人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

日本赌上国运救场,美日关系真相引争议

浏览 6089 07-14

排片创历史纪录,片长125分钟一刀不剪,吴京的最强对手来了

娱乐圈笔娱君 浏览 207 09-06

辟谣!“酱油生虫”不要再怪酱油了

斑马消费 浏览 2661 07-12

韩国拟允许个人赴朝鲜旅游 官方称正推进对朝政策改善

界面新闻 浏览 6387 07-22

59岁蒋雯丽现状让人心酸,一代女神也落寞了?

洲洲影视娱评 浏览 48 11-12

"80后"副校长任羽中被查 北京大学表态

北京日报客户端 浏览 160 09-18

中美第4轮交锋 特朗普发长文破天荒承认"美国不行了"

博览历史 浏览 320 09-16

残酷真相:盈利很好,仍要裁员15000!微软CEO内部信透露新常态

华尔街见闻官方 浏览 8563 07-29

媒体:冯德莱恩听特朗普召唤 在关税面前显得无力

新民周刊 浏览 1886 07-29

对标丰田4Runner 本田新款Passport最新消息曝光

乐选爱车 浏览 108 10-09

江一燕8年前与赵汉唐因戏结缘 最后同框在今年4月

萌神木木 浏览 65 10-31

警惕视力小偷,多多目浴阳光!

北京青年报 浏览 602 06-09

高考生被骗至缅甸 同车人:一起拼车4小时 都劝他回家

扬子晚报 浏览 759 07-14

家庭皮肤消毒该避开的坑,这样操作才安全!

网易健康 浏览 276 08-22

上海海事局:长江口10日一大型船舶航行交通管制

中华人民共和国海事局 浏览 192 09-09

爱玩摇滚的诺奖得主,向癌症发起“甜蜜复仇”|浦江科学大师讲坛

上观新闻 浏览 262 08-26

17岁女子将19岁男友10万卖到缅甸未涉拐卖罪 律师解读

潇湘晨报 浏览 361 08-20

以色列总理要求卡塔尔驱逐哈马斯领导人

界面新闻 浏览 194 09-11

媒体:中国不惧美方施压 "偏逆着来"购买更多俄石油

澎湃新闻 浏览 106 10-23

只此一轮!这个伟大的电影美学运动30年啦!

幕味儿 浏览 8663 07-12

微博、快手被查处!

证券时报e公司 浏览 149 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11