参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

大张伟和老婆...

柬埔寨向泰国...

阿卡配合萨巴...

成本仅500...

卡纳瓦罗：我...

特朗普，重仓...

雷军回应小米召回SU7

美国新提议：把加沙一分为二先重建以色列控制区

身材要练壮壮的，手袋要买大大的

越级空间长安启源A06上市售10.99万元起

今年秋天最火的穿法：裤子+裙子，谁穿谁好看！

世纪华通蝉联A股游戏“营收王”昆仑万维转型布局AI赛道“亏麻了”

现实版＂继承之战＂：默多克长子胜出邓文迪两女儿入局

负债累累！百年巨头宣布破产保护

因自身资金需求，国光股份原董事长前妻拟减持不超过3%

E句话| 恭喜，他们生三娃了！

内存条现货价格“跳水”三成，手机厂商却在涨价，存储市场为何两极分化？

足协评议：湖北青年星VS江西庐山两例争议判罚一例正确，一例错误

王伟中已兼任内蒙古党校校长

日产N7大卖，一汽大众看在眼里，急在心里！

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

直播镜头前以色列把叙利亚国防部炸出＂蘑菇云＂

2019年资金荒隐现？全球货币市场流动性趋紧信号显现

女大避父！倪萍戳穿董璇半路夫妻的残酷

商竣程因伤退出美网比赛，父亲商毅晒出伤脚淤青明显

俄称打击乌兵员中心乌称袭击俄边疆炼油厂

S=更入门？大众速腾S工信部信息曝光

韩国将迎＂史上最热夏季＂尹锡悦支持者：给他装空调

U23亚预赛印尼0-1不敌韩国，无缘正赛阶段

英伟达最新芯片B30A曝光