关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02408人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

波兰重新给中国打开通道 专家:关闭口岸或惹恼中国

澎湃新闻 浏览 373 09-25

稳了,“毁容式”出演县长的胡歌,已经走上了演员的“上坡路”

娱乐圈笔娱君 浏览 204 02-05

专家:俄乌“和平计划”应触及冲突发生深层原因

环球网资讯 浏览 239 12-02

林清轩IPO之路:爆款依赖、营销豪赌与国货高端梦

Daily每日财报 浏览 8983 07-14

海辰储能澄清“与印度信实公司技术合作”:不实谣言

中新经纬 浏览 316 09-26

没招了,拜到真·时髦祖师奶

时尚COSMO 浏览 397 08-23

鲁本-迪亚斯:我不在乎其他队的心理游戏,我只关心我们自己

懂球帝 浏览 355 09-21

广东千亿城商行香港子行开业倒计时,首任董事长、行长正式敲定

湘财Plus 浏览 452 08-11

燃油车天要塌了!国产固态电池宣布量产,充电6分钟跑1000km

小李车评李建红 浏览 476 06-14

消失3年的国民男神,复出了

独立鱼 浏览 849 07-16

桑乔拒绝罗马报价原因曝光!经纪人索1100万佣金,欲夺曼联转会费

罗米的曼联博客 浏览 483 08-20

不在乎中国市场?全智贤方风波后仍未道歉,昔日傲慢模样全被扒

扒虾侃娱 浏览 358 09-22

国羽汤杯与印度队争小组第一:石宇奇休战,李诗沣任一单

懂球帝 浏览 54 04-29

伊能静再婚11年首晒比基尼照,腰臀曲线引热议

柠檬有娱乐 浏览 191 01-29

美国一载115人波音客机空中襟翼脱落 坠入居民区

界面新闻 浏览 9088 07-04

释永信接受调查 佛慈制药突现异动意外涨停

潇湘晨报 浏览 4039 07-29

好看的裙子不嫌多!这几条洋气显瘦巨百搭,谁穿谁好看!

Yuki女人故事 浏览 403 08-24

这些才是气质女人都喜欢的穿搭!不花哨、不俗艳,舒适又自然

静儿时尚达人 浏览 7069 06-18

勇士将底薪签小库里+小佩顿:库里兄弟联手

醉卧浮生 浏览 7099 08-06

两会对话|商汤徐立:建议推动AI工具的公共职业化培训,促进就业形态多元化发展

澎湃新闻 浏览 209 02-05

在进博会上,重新认识海尔生物

财经无忌 浏览 292 11-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11