关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02197人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

涵盖就医、上学、社保等 重磅民生文件公布

界面新闻 浏览 4144 06-10

2025未来科学大奖获奖名单公布

环球网资讯 浏览 3773 08-06

听说新能源车“不入东三省”?打破技术垄断的全新MG4偏向“虎山行”

澎湃新闻 浏览 292 08-12

媒体:高市早苗被批"日本之耻" 特朗普一来人设绷不住

澎湃新闻 浏览 78 10-31

配置升级 长安Lumin宝藏版将于10月30日上市

车质网 浏览 109 10-24

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者 浏览 80 10-31

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 48 11-11

中产追捧的月子中心生意,为何突然熄火?

快刀财经 浏览 5272 07-25

vivo 韩伯啸:X300 是 X200 Pro mini 升级版

IT之家 浏览 223 09-11

继星巴克之后,汉堡王中国也被卖了!中国资管巨头3.5亿美元接手

深蓝财经 浏览 45 11-12

苹果发布iPhone 17系列之后:劳务中介劝人“跑步进厂”

经济观察报 浏览 201 09-10

鏖战三盘,遗憾败北,贾尼斯与挑战赛冠军擦肩而过

网球之家 浏览 351 08-11

德媒:卖完科曼后监事会只允许埃贝尔租球员,他既惊讶又困惑

直播吧 浏览 272 08-20

上海一小学校园餐现540天保质期牛肉 溯源记录被下架

大风新闻 浏览 194 09-20

首批31家券商业绩全部预增!国泰海通、中国银河激烈角逐,中金公司止跌回升

时代周报 浏览 5047 07-17

快讯|京东与锦江酒店达成合作 覆盖1.37万家门店

网易科技报道 浏览 201 09-10

汪峰演唱会遭遇“掉链子”

一娱三分地 浏览 88 10-31

网红旺仔小乔掉粉500万道歉信查重率超97% 演唱会延期

新民周刊 浏览 9614 07-30

喜茶正式上线淘宝闪购:全国超4000家门店已全量运营

雷峰网 浏览 260 08-22

伊朗警告:特朗普别自以为是 阿亚拟建走廊将成"坟墓"

澎湃新闻 浏览 328 08-11

单依纯回应争议称常石磊很爱她!两人相互欣赏!

黄小仙的搞笑视频 浏览 7676 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11