参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

落实个人消费...

长期的“台积...

贵州省能源局...

质感女人怎么...

美波音客机突...

‍烂！32岁...

法拍狸花猫撤拍后被爱猫人士领走工作人员发声

大S遗产案惊现致命漏洞，具俊晔紧急灭火藏玄机

古偶丑男又来了，到底是谁在力捧他！

徽州＂国保＂古宅内商拍摄影师点明火拍写真警方已介入

百余名货车司机被控盗窃罪：利用磅差倒卖货物很普遍

印度航空179航班：一场与时间赛跑的飞行

“AI外卖”乱象：虚假店铺图泛滥，平台监管亟待加强

E句话|《怦然心动》的导演，被儿子杀死？

美国＂全面封锁＂受制裁油轮一艘油轮狂发75次求救信号

受贿近千万，人保财险公司原监事会主席张孝礼认罪悔罪

【报名启动】2025媒介力学论坛：三大媒介生态巨变，AI Agent如何重塑品牌增长？

中部六省，谁的人口在下降？

博主成功拆解苹果 iPhone Air，刮去背板涂层打造“透明版”机型

里沙利松：踢日本要展现出与踢韩国一样的强度

郭德纲没想到岳云鹏竟给曹云金做了“嫁衣”

俄乌冲突升级美西方大使馆紧急撤离

珍酒李渡亮3招缓压，吴向东能否坐稳“贵州首富”？

赵昭仪“叮铃桄榔”系OOTD又加更了

居然智家董事长坠楼身亡？公司：会尽快公告

运动员孙闻赛后情绪失控摔拍被乒协给予停赛1轮处罚

新房承重梁部分钢筋被切断业主：300万买房很膈应

有点东西！6号秀特雷-约翰逊12中7&三分5中3拿到18分3板2助

埃尔多安指责以色列违反加沙停火协议

马斯克新建“美国党”，能冲击两党“轮流坐庄”格局吗