关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02414人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《美人鱼2》6亿投资打水漂!投资人被劣迹艺人坑哭,可惜了周星驰

娱乐圈笔娱君 浏览 387 09-11

官方:富勒姆签下34岁蒙彼利埃门将莱康特,双方签约至2027年

直播吧 浏览 2509 07-27

"沈阳造"水上电动飞机完成交付前试飞

金台资讯 浏览 512 08-23

媒体:特朗普"伸手"高加索 宣布要建立针对中国"走廊"

上观新闻 浏览 3029 08-10

官方认证!湖南“第二省会”深圳,不装了

西部城市 浏览 8611 08-14

对话汪建平:生态共建 让智驾未来照进现实

网易汽车 浏览 497 05-10

Nature重磅:AI又一突破!穿越千年,填补人类缺失的历史

学术头条 浏览 4581 07-24

国家知识产权局:将继续探索人工智能应用,发挥辅助审查作用

南方都市报 浏览 2306 07-17

郑晓龙《红楼梦》选角又现神操作!81岁曹翠芬演贾母

小邵说剧 浏览 367 09-11

大咖对话:从L2到L4,如何破解高阶智驾落地难题

网易汽车 浏览 225 12-10

Google最新洞察:中国出海企业面临“研究型”消费者新挑战

网易科技报道 浏览 339 09-09

AI时代,算法挑拨离间所有人的关系

周天财经 浏览 2376 08-06

记者:马斯切拉诺确认梅西只是受到轻微撞击,比赛结束时状况良好

直播吧 浏览 848 07-17

中国首型,海上发射成功!

观察者网 浏览 8102 08-09

广东晋级四强4利好!胡明轩杜润旺难得暴走,王睿泽+内线状态极佳

篮球资讯达人 浏览 258 11-11

市值124亿公司,投138亿元炒股、理财

深蓝财经 浏览 453 08-25

吉利发布了 Flyme Auto 2,并宣布不再开发传统智能座舱

爱范儿 浏览 493 08-21

为什么说医疗AI的终局,必然有讯飞医疗一席之地?

锦缎研究院 浏览 169 02-24

修杰楷承认造假!逃役失败因贾静雯怀孕提前退伍,面临牢狱之灾

萌神木木 浏览 247 10-22

43岁范冰冰受封拿督,事业疑获新大佬支持,全面进军海外市场

萌神木木 浏览 428 08-25

继与霉霉恋情谣言后,里弗斯被传约会网红

艺兔体坛 浏览 236 01-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11