关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02377人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

越级空间 长安启源A06上市售10.99万元起

网易汽车 浏览 248 11-12

今年秋天最火的穿法:裤子+裙子,谁穿谁好看!

LinkFashion 浏览 436 08-20

世纪华通蝉联A股游戏“营收王”昆仑万维转型布局AI赛道“亏麻了”

南方都市报 浏览 304 09-10

现实版"继承之战":默多克长子胜出 邓文迪两女儿入局

红星新闻 浏览 364 09-10

负债累累!百年巨头宣布破产保护

汽车工程师 浏览 453 06-16

因自身资金需求,国光股份原董事长前妻拟减持不超过3%

红星资本局 浏览 5084 07-27

E句话| 恭喜,他们生三娃了!

仙女事件簿 浏览 262 10-23

内存条现货价格“跳水”三成,手机厂商却在涨价,存储市场为何两极分化?

红星资本局 浏览 112 04-10

足协评议:湖北青年星VS江西庐山两例争议判罚一例正确,一例错误

直播吧 浏览 6352 07-31

王伟中已兼任内蒙古党校校长

界面新闻 浏览 332 10-02

日产N7大卖,一汽大众看在眼里,急在心里!

郑谊 浏览 460 05-16

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 259 11-08

直播镜头前 以色列把叙利亚国防部炸出"蘑菇云"

澎湃新闻 浏览 3788 07-18

2019年资金荒隐现?全球货币市场流动性趋紧信号显现

华尔街见闻官方 浏览 265 11-01

女大避父!倪萍戳穿董璇半路夫妻的残酷

科学发掘 浏览 9493 08-07

商竣程因伤退出美网比赛,父亲商毅晒出伤脚淤青明显

懂球帝 浏览 425 08-26

俄称打击乌兵员中心 乌称袭击俄边疆炼油厂

北青网-北京青年报 浏览 9922 07-09

S=更入门?大众速腾S工信部信息曝光

网易汽车 浏览 234 01-09

韩国将迎"史上最热夏季" 尹锡悦支持者:给他装空调

红星新闻 浏览 2711 07-16

U23亚预赛印尼0-1不敌韩国,无缘正赛阶段

懂球帝 浏览 360 09-10

英伟达最新芯片B30A曝光

量子位 浏览 460 08-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11