关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02380人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

徽州"国保"古宅内商拍摄影师点明火拍写真 警方已介入

上游新闻 浏览 3737 07-31

百余名货车司机被控盗窃罪:利用磅差倒卖货物很普遍

重案组37号 浏览 383 09-16

印度航空179航班:一场与时间赛跑的飞行

国际金融报 浏览 371 09-26

“AI外卖”乱象:虚假店铺图泛滥,平台监管亟待加强

三言科技 浏览 3397 07-26

E句话|《怦然心动》的导演,被儿子杀死 ?

仙女事件簿 浏览 184 12-16

美国"全面封锁"受制裁油轮 一艘油轮狂发75次求救信号

红星新闻 浏览 249 12-24

受贿近千万,人保财险公司原监事会主席张孝礼认罪悔罪

经理人杂志 浏览 9169 08-13

【报名启动】2025媒介力学论坛:三大媒介生态巨变,AI Agent如何重塑品牌增长?

第一财经商业数据中心 浏览 9696 07-13

中部六省,谁的人口在下降?

博闻财经 浏览 341 09-21

博主成功拆解苹果 iPhone Air,刮去背板涂层打造“透明版”机型

IT之家 浏览 276 10-19

里沙利松:踢日本要展现出与踢韩国一样的强度

懂球帝 浏览 295 10-14

郭德纲没想到岳云鹏竟给曹云金做了“嫁衣”

一家说 浏览 5861 08-10

俄乌冲突升级 美西方大使馆紧急撤离

浏览 9171 07-14

珍酒李渡亮3招缓压,吴向东能否坐稳“贵州首富”?

密探财经 浏览 402 09-11

赵昭仪“叮铃桄榔”系OOTD又加更了

时尚COSMO 浏览 4671 07-07

居然智家董事长坠楼身亡?公司:会尽快公告

澎湃新闻 浏览 57001 07-28

运动员孙闻赛后情绪失控摔拍 被乒协给予停赛1轮处罚

极目新闻 浏览 402 09-01

新房承重梁部分钢筋被切断 业主:300万买房 很膈应

上游新闻 浏览 1476 07-28

有点东西!6号秀特雷-约翰逊12中7&三分5中3拿到18分3板2助

直播吧 浏览 1727 07-12

埃尔多安指责以色列违反加沙停火协议

新华社 浏览 303 10-26

马斯克新建“美国党”,能冲击两党“轮流坐庄”格局吗

浏览 7013 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11