参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

蔚来回应注销...

伊朗：已采取...

高市早苗求见...

日娱大瓜！虎...

牛弹琴：总理...

飞机中转被截...

媒体：特朗普称美军要重返阿富汗或看九三阅兵焦虑了

2000元起家的“魔方狂人”，赚了2个亿

实拍手机神级修复现场，坏成这样也能修？

成都经济运行数据出炉：新能源汽车产量增长326.2%

特朗普就印巴停火＂邀功＂后印方迅速放出消息

日舰入侵中国领海遭解放军开炮警告日本网友纷纷破防

江西43家国企耗资38.67亿入股，上饶银行补血计划落地

新片票房不及预期，大鹏开始了反思！

鲁尼：索尔-坎贝尔说我假摔终结阿森纳49场不败，半年不和我说话

男子杀女友后潜逃25年：没睡过整觉梦里全是血和锤子

美国务院批准向波兰出售“标枪”导弹系统

纯进口SUV，标配全时四驱+2.5L水平对置，媲美普拉多，仅售24万多

天问二号这次的任务是什么？“空天兔”带你一探究竟

美媒：黄仁勋将在访华前一天赴白宫与特朗普会面

被重罚8700万天价，“业绩乏力”的华夏银行暴露了啥？

北京强降雨致首都机场部分航班延误取消

佩杜拉：国米或将4500万欧报价卢克曼，本月底为交易的截止日

全新外观设计新款日产轩逸申报图曝光

小米汽车又一重要专利公布！

锂电“反内卷”显成效？六氟磷酸锂涨价潮袭来业内：厂商前期主动降负荷

特尔：热刺的队友和球迷都很好，我与俱乐部之间有共鸣

曹云金直播悼念杨少华，得知噩耗深感痛惜：我们也曾模仿他

被收39%高关税瑞士联邦主席:特朗普在最后通话中大怒

7月暑期档，《南京照相馆》彻底爆了，电影《731》却争议最大！