关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02199人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成都经济运行数据出炉:新能源汽车产量增长326.2%

证券时报 浏览 230 08-22

特朗普就印巴停火"邀功"后 印方迅速放出消息

环球时报 浏览 8369 05-11

日舰入侵中国领海遭解放军开炮警告 日本网友纷纷破防

博览历史 浏览 350 08-12

江西43家国企耗资38.67亿入股,上饶银行补血计划落地

湘财Plus 浏览 2309 07-17

新片票房不及预期,大鹏开始了反思!

电和影 浏览 6744 08-09

鲁尼:索尔-坎贝尔说我假摔终结阿森纳49场不败,半年不和我说话

直播吧 浏览 255 08-20

男子杀女友后潜逃25年:没睡过整觉 梦里全是血和锤子

扬子晚报 浏览 348 08-23

美国务院批准向波兰出售“标枪”导弹系统

国际在线 浏览 133 09-19

纯进口SUV,标配全时四驱+2.5L水平对置,媲美普拉多,仅售24万多

隔壁说车老王 浏览 8743 07-19

天问二号这次的任务是什么?“空天兔”带你一探究竟

国际在线 浏览 705 05-29

美媒:黄仁勋将在访华前一天赴白宫与特朗普会面

环球网资讯 浏览 10247 07-11

被重罚8700万天价,“业绩乏力”的华夏银行暴露了啥?

密探财经 浏览 180 09-09

北京强降雨致首都机场部分航班延误取消

极目新闻 浏览 7295 08-13

佩杜拉:国米或将4500万欧报价卢克曼,本月底为交易的截止日

懂球帝 浏览 9860 07-25

全新外观设计 新款日产轩逸申报图曝光

车市红点 浏览 175 09-12

小米汽车又一重要专利公布!

电动知家 浏览 30 11-25

锂电“反内卷”显成效?六氟磷酸锂涨价潮袭来 业内:厂商前期主动降负荷

每日经济新闻 浏览 178 09-10

特尔:热刺的队友和球迷都很好,我与俱乐部之间有共鸣

懂球帝 浏览 8959 07-25

曹云金直播悼念杨少华,得知噩耗深感痛惜:我们也曾模仿他

扒虾侃娱 浏览 8790 07-10

被收39%高关税 瑞士联邦主席:特朗普在最后通话中大怒

红星新闻 浏览 7540 08-05

7月暑期档,《南京照相馆》彻底爆了,电影《731》却争议最大!

电和影 浏览 4409 08-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11