关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02136人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

深圳自建房业主私装电梯二手承重木断裂 3名工人坠亡

极目新闻 浏览 5568 07-21

罗体:加斯佩里尼不满切利克传球失误,罗马的防守压迫也不足

懂球帝 浏览 7502 07-27

雷克萨斯“落沪”,是好棋还是险棋?

禾颜阅车 浏览 2793 07-11

一年前“掐点”成立 多只基金无缘“翻倍基”

证券时报 浏览 81 09-29

青年创新的“破卷”之道:在无人区里找答案|2025浦江创新论坛

上观新闻 浏览 120 09-22

10年状元!沃尔生涯11个赛季出战647场比赛 场均18.7分8.9助1.6断

直播吧 浏览 164 08-20

无刷直流电机:灵巧手“最后一毫米”的市场争夺战|行业风向标

钛媒体APP 浏览 2270 08-14

烂大街的土裙子别穿了!这6件洋气巨显瘦,回头率100%

Yuki女人故事 浏览 4567 06-09

深夜,中国资产大爆发!英伟达市值一夜增加超10000亿元

21世纪经济报道 浏览 1068 07-16

男子离婚冷静期毒杀儿女 曾强烈反对妻子直播卖唱养家

中国新闻周刊 浏览 213 08-22

德媒:特朗普近期至少4次致电莫迪均被拒

环球网资讯 浏览 189 08-27

中超一线队夏窗转会:米特里策、韦斯利登陆中超;蓉城无引援

懂球帝 浏览 2084 07-22

王楚钦夺冠颁奖!张本无表情,王楚钦开心接奖杯,整发型帅气自拍

篮球资讯达人 浏览 5721 07-14

林徽因嫁给梁思成,一半原因在他?

Yuki女人故事 浏览 5856 06-16

华人首富赵长鹏香港演讲,释放了什么信号?

米筐投资 浏览 131 09-10

家居龙头再现高层“地震”:富森美董事长刘兵突遭留置

密探财经 浏览 1182 07-25

上架低糖好丽友后遭网友质疑选品质量下滑 山姆回应了

中国商报 浏览 1053 07-16

福建舰未来还会搭载哪些新型舰载机 专家解析

北京日报客户端 浏览 87 09-28

比亚迪偷工减料?权威机构一锤定音 和特斯拉/理想一起当老师?

小李车评李建红 浏览 228 05-30

爆料杨采钰知三当三失败,豪门梦破碎

科学发掘 浏览 101 09-20

杨紫再让观众刮目相看,打破宋丹丹当年“忠告”

佳佳优选家居 浏览 6752 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11