关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02193人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

铜铜铜,快要高攀不起了

每日资本论 浏览 13 12-11

真的玩成“赔本赚吆喝”?水井坊净利大跌56%背后

天下财道社 浏览 3985 07-28

同一天3架波音新飞机飞往中国 媒体:非常罕见

每日经济新闻 浏览 2518 07-17

00后试水A股,追热点、高活跃、爱炒科技股

21世纪经济报道 浏览 7007 08-10

弗林斯:很惊讶沃尔特马德的转会费,要知道他曾被不莱梅免费放走

直播吧 浏览 190 09-01

世锦赛200混:12岁小孩姐于子迪首秀过关,携手余依婷跻身半决赛

全景体育V 浏览 3692 07-27

有气质的女人夏天更爱穿裙子,这些裙装穿搭,每一套都很出彩

静儿时尚达人 浏览 193 09-10

媒体爆料:特斯拉机器人产量远不及目标,承诺年底前生产5000台,但目前只产了几百台

华尔街见闻官方 浏览 9171 07-27

法国队史第3次闯入U20世界杯半决赛,此前一次夺冠一次第4

懂球帝 浏览 133 10-13

加克波:斯洛特的细节把控令人惊叹,欧冠和世界杯是未来奋斗目标

直播吧 浏览 8416 08-10

夏天最值得入手的6件单品,全在这了

LinkFashion 浏览 4156 06-15

甘肃银行“将帅”或迎重大调整,该如何打破增长瓶颈?

Daily每日财报 浏览 7116 08-06

仰望U9 Xtreme开放预订:全球限量30台,纽北赛道成绩6:59.157

IT之家 浏览 181 09-21

关于生成式AI,这三个问题很关键

经济观察网 浏览 79 10-28

郑州银行收年内首张罚单、罚款61.9万,系总行时隔4年多首度被罚

湘财Plus 浏览 279 08-20

山西永聚煤业火灾致26死38伤:被罚1500万 13人被公诉

山西晚报 浏览 8656 07-30

董璇自曝离婚内幕!谈前夫高云翔出轨落泪,坦言一辈子忘不了

萌神木木 浏览 4282 07-18

黄仁勋继续减持英伟达:今年已套现2亿美元 公司市值4.2万亿美元

雷递 浏览 4639 07-21

理想汽车下摆臂异响补偿方案发布月余,多位车主投诉称遭区别对待

澎湃新闻 浏览 139 09-22

不打NBA?欧媒:奥林匹亚科斯正与班顿就转会的可能性进行谈判

直播吧 浏览 149 09-21

罗永浩怒怼西贝预制菜引关注

网易健康 浏览 199 09-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11