关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2025-11-09 00:00:0155人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

林清轩IPO之路:爆款依赖、营销豪赌与国货高端梦

Daily每日财报 浏览 8770 07-14

马斯克"星舰"在试飞前测试时发生巨大爆炸

财联社 浏览 9729 06-20

太阳报:切尔西在主场展示奖杯,门票售价5英镑但球迷不多

懂球帝 浏览 4787 08-07

环比新增631%,商家入驻潮背后,高德做对了什么?

阿尔法工场 浏览 156 09-26

全运会男足U20半决赛对阵:广东vs上海,湖北vs山东

懂球帝 浏览 59 11-09

大S遗产分割落定!汪小菲狂揽6.6亿,具俊晔好惨

TVB的四小花 浏览 170 09-19

创客训练营模式为何能坚持十年?这家企业下了一步好棋

财经无忌 浏览 7796 07-29

深圳,最狠的一次升级

博闻财经 浏览 1844 08-10

NTSB:波音737Max安全隐患或致驾驶舱进烟

新京报 浏览 6845 06-22

男主播大秀肌肉,麻辣王子开始“擦边”营销?

国际金融报 浏览 3577 07-18

家有孤独症宝宝怎么办?儿科专家教你少走弯路

网易健康 浏览 2714 03-31

外媒:苹果将推出基于聊天机器人的支持助手,部分iPhone用户率先体验

环球网资讯 浏览 7405 08-06

美韩领导人会晤无果,特朗普称7月贸易协议条款不变,尽管李在明白宫首秀博好感

华尔街见闻官方 浏览 283 08-26

加盟米兰至今只替补出场1次,斯基拉:奥多古可能在冬窗离队

懂球帝 浏览 42 11-17

央视前知名主持人水均益宣布当姥爷 女儿曾是央视记者

鲁中晨报 浏览 6140 08-13

盒马换个活法

光子星球 浏览 288 08-21

牛弹琴:香港经历不眠之夜 对罕见火灾有两个"没想到"

北京日报客户端 浏览 143 11-27

世界最大航空发射场 拜科努尔今年70岁

环球网资讯 浏览 8858 06-30

98版沙僧刘大刚去世,最后露面曝光

科学发掘 浏览 62 11-08

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 31 11-17

9分钟丢球!阿森纳上一次在英超这么快丢球,进球者也是哈兰德

直播吧 浏览 146 09-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11