关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02413人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿莫林:姆伯莫下一场也无法上场,争取赶上最后一场踢埃弗顿

懂球帝 浏览 846 07-28

感谢赵露思,贡献了内娱最精彩连续剧

公子麦少 浏览 458 08-17

澳大利亚刚插手台海就收噩耗 中方杀鸡儆猴停特殊待遇

时时有聊 浏览 265 01-02

加入更多专属设计 全新小鹏P7鹏翼版官图发布

网易汽车 浏览 456 08-15

科技感爆棚 大众ID. ERA 9X内饰官图发布

车质网 浏览 161 03-02

库里也来研磨下笔!库里更推:这趟中国行太让我感动了

直播吧 浏览 415 08-21

米体:尤文想用道格拉斯-路易斯加阿图尔和葡体交换尤尔曼德

懂球帝 浏览 4618 07-29

“得黄金ETF者得天下”!这类ETF单周狂揽410亿元,两家公募成大赢家丨ETF规模周报

每经牛眼 浏览 314 10-19

上海老教授花600万借孙女名字买房 结果要不回来了

都市快报橙柿互动 浏览 279 11-17

“毛绒外套”今年冬天爆火,这样穿又暖又时髦!

LinkFashion 浏览 157 11-26

【产业互联网周报】 上海:支持云服务商建设模型即服务平台;科大讯飞:预计上半年净亏损2亿元-2.8亿元;苹果被挖角,AI模型负责人数千万美元年薪跳槽Meta

钛媒体APP 浏览 4421 07-14

李亚鹏海哈金喜离婚早有预兆!女方无意说漏嘴,婚姻不能只有爱情

萌神木木 浏览 255 10-15

马斯克遭特斯拉股东集体起诉 本人怒斥发起律师"人渣"

红星新闻 浏览 1675 08-07

吉利星座未来两个月内实现在轨卫星 64 颗部署

IT之家 浏览 5032 08-11

近期A股的增量资金来自哪里?

菜鸟理财 浏览 467 08-12

身家10亿起的阿里码农,转投杭州科技新秀

21财闻汇 浏览 404 08-21

福建舰已完成多次海试 进度远超预期

央视新闻客户端 浏览 241 09-28

男子255万拍校内51平商铺3年经营权 因不能卖烟酒弃租

环球网资讯 浏览 8437 08-05

文章近状曝光,亲切与路人合照,头发炸毛潦草

我爱八卦娱q 浏览 399 09-19

媒体:天水现"塌方式腐败" 致个别员工的荒唐行径恶化

澎湃新闻 浏览 8024 07-21

票房破89亿,只是个开始,70岁的成龙,要掀起一波“新高潮”了

娱乐圈笔娱君 浏览 2831 08-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11