关闭广告

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

量子位2025-09-10 00:00:02193人阅读

henry 发自凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文，还是给GPT-5挽尊？

最近，《语言模型为何会产生幻觉？》这篇论文火了。

它提出模型有幻觉是因为：标准的训练和评估流程，更倾向于奖励“猜对”，而非承认不确定

正因如此，模型在面对不确定的问题时，往往会选择冒险猜测以获得更高评分。

所以，为了让模型“老实说不”，就应该重新设计评估指标，从而鼓励模型承认自己不会，惩罚随意猜测

而好巧不巧的是，OpenAI自家的GPT-5就最不爱猜测

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

铜铜铜，快要高攀不起了

每日资本论浏览 13 12-11

真的玩成“赔本赚吆喝”？水井坊净利大跌56%背后

天下财道社浏览 3985 07-28

同一天3架波音新飞机飞往中国媒体：非常罕见

每日经济新闻浏览 2518 07-17

00后试水A股，追热点、高活跃、爱炒科技股

21世纪经济报道浏览 7007 08-10

弗林斯：很惊讶沃尔特马德的转会费，要知道他曾被不莱梅免费放走

直播吧浏览 190 09-01

世锦赛200混：12岁小孩姐于子迪首秀过关，携手余依婷跻身半决赛

全景体育V 浏览 3692 07-27

有气质的女人夏天更爱穿裙子，这些裙装穿搭，每一套都很出彩

静儿时尚达人浏览 193 09-10

媒体爆料：特斯拉机器人产量远不及目标，承诺年底前生产5000台，但目前只产了几百台

华尔街见闻官方浏览 9171 07-27

法国队史第3次闯入U20世界杯半决赛，此前一次夺冠一次第4

懂球帝浏览 133 10-13

加克波：斯洛特的细节把控令人惊叹，欧冠和世界杯是未来奋斗目标

直播吧浏览 8416 08-10

夏天最值得入手的6件单品，全在这了

LinkFashion 浏览 4156 06-15

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

Daily每日财报浏览 7116 08-06

仰望U9 Xtreme开放预订：全球限量30台，纽北赛道成绩6:59.157

IT之家浏览 181 09-21

关于生成式AI，这三个问题很关键

经济观察网浏览 79 10-28

郑州银行收年内首张罚单、罚款61.9万，系总行时隔4年多首度被罚

湘财Plus 浏览 279 08-20

山西永聚煤业火灾致26死38伤：被罚1500万 13人被公诉

山西晚报浏览 8656 07-30

董璇自曝离婚内幕！谈前夫高云翔出轨落泪，坦言一辈子忘不了

萌神木木浏览 4282 07-18

黄仁勋继续减持英伟达：今年已套现2亿美元公司市值4.2万亿美元

雷递浏览 4639 07-21

理想汽车下摆臂异响补偿方案发布月余，多位车主投诉称遭区别对待

澎湃新闻浏览 139 09-22

不打NBA？欧媒：奥林匹亚科斯正与班顿就转会的可能性进行谈判

直播吧浏览 149 09-21

罗永浩怒怼西贝预制菜引关注

网易健康浏览 199 09-15

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

巴基斯坦男子...

外卖“价格战...

对话AI春晚...

《罗小黑战记...

“借鸡生蛋”...

前辈无特权后...

谢霆锋演唱会“站坐之争”！全网观演礼仪引爆

拿什么拯救你，四十不获的阿里扎

早有预兆！浙江老板遭刑事强制，一个多月前已有小道消息

铜铜铜，快要高攀不起了

真的玩成“赔本赚吆喝”？水井坊净利大跌56%背后

同一天3架波音新飞机飞往中国媒体：非常罕见

00后试水A股，追热点、高活跃、爱炒科技股

弗林斯：很惊讶沃尔特马德的转会费，要知道他曾被不莱梅免费放走

世锦赛200混：12岁小孩姐于子迪首秀过关，携手余依婷跻身半决赛

有气质的女人夏天更爱穿裙子，这些裙装穿搭，每一套都很出彩

媒体爆料：特斯拉机器人产量远不及目标，承诺年底前生产5000台，但目前只产了几百台

法国队史第3次闯入U20世界杯半决赛，此前一次夺冠一次第4

加克波：斯洛特的细节把控令人惊叹，欧冠和世界杯是未来奋斗目标

夏天最值得入手的6件单品，全在这了

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

仰望U9 Xtreme开放预订：全球限量30台，纽北赛道成绩6:59.157

关于生成式AI，这三个问题很关键

郑州银行收年内首张罚单、罚款61.9万，系总行时隔4年多首度被罚

山西永聚煤业火灾致26死38伤：被罚1500万 13人被公诉

董璇自曝离婚内幕！谈前夫高云翔出轨落泪，坦言一辈子忘不了

黄仁勋继续减持英伟达：今年已套现2亿美元公司市值4.2万亿美元

理想汽车下摆臂异响补偿方案发布月余，多位车主投诉称遭区别对待

不打NBA？欧媒：奥林匹亚科斯正与班顿就转会的可能性进行谈判

罗永浩怒怼西贝预制菜引关注

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

巴基斯坦男子...

外卖“价格战...

对话AI春晚...

《罗小黑战记...

“借鸡生蛋”...

前辈无特权后...

谢霆锋演唱会“站坐之争”！全网观演礼仪引爆

拿什么拯救你，四十不获的阿里扎

早有预兆！浙江老板遭刑事强制，一个多月前已有小道消息

铜铜铜，快要高攀不起了

真的玩成“赔本赚吆喝”？水井坊净利大跌56%背后

同一天3架波音新飞机飞往中国 媒体：非常罕见

00后试水A股，追热点、高活跃、爱炒科技股

弗林斯：很惊讶沃尔特马德的转会费，要知道他曾被不莱梅免费放走

世锦赛200混：12岁小孩姐于子迪首秀过关，携手余依婷跻身半决赛

有气质的女人夏天更爱穿裙子，这些裙装穿搭，每一套都很出彩

媒体爆料：特斯拉机器人产量远不及目标，承诺年底前生产5000台，但目前只产了几百台

法国队史第3次闯入U20世界杯半决赛，此前一次夺冠一次第4

加克波：斯洛特的细节把控令人惊叹，欧冠和世界杯是未来奋斗目标

夏天最值得入手的6件单品，全在这了

甘肃银行“将帅”或迎重大调整，该如何打破增长瓶颈？

仰望U9 Xtreme开放预订：全球限量30台，纽北赛道成绩6:59.157

关于生成式AI，这三个问题很关键

郑州银行收年内首张罚单、罚款61.9万，系总行时隔4年多首度被罚

山西永聚煤业火灾致26死38伤：被罚1500万 13人被公诉

董璇自曝离婚内幕！谈前夫高云翔出轨落泪，坦言一辈子忘不了

黄仁勋继续减持英伟达：今年已套现2亿美元 公司市值4.2万亿美元

理想汽车下摆臂异响补偿方案发布月余，多位车主投诉称遭区别对待

不打NBA？欧媒：奥林匹亚科斯正与班顿就转会的可能性进行谈判

罗永浩怒怼西贝预制菜引关注

同一天3架波音新飞机飞往中国媒体：非常罕见

黄仁勋继续减持英伟达：今年已套现2亿美元公司市值4.2万亿美元