关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02379人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

抗日民族英雄吉鸿昌将军后人将参阅

极目新闻 浏览 313 08-30

英特尔宣布,57亿美元到账,投资者先炸了

网易科技报道 浏览 452 08-29

赵心童:要学会带着压力享受比赛;特别爱吃陕西面食和葫芦鸡

懂球帝 浏览 305 10-13

美印闹僵:印过于自信 以为美不能忽视14亿人口市场

澎湃新闻 浏览 4180 08-07

凌晨3点45 德国复仇战!赢球=晋级世界杯+种子队 首发曝光

叶青足球世界 浏览 226 11-17

国务院台办:赖清德所谓“团结十讲”充斥着谎言与欺骗

界面新闻 浏览 10213 07-17

美媒:特朗普倾向于乌克兰割让领土 而非停火

鲁中晨报 浏览 464 08-18

《恋人》要空降?会成下个《许我耀眼》吗?

楚楚号 浏览 232 12-29

夏季又湿又热,不妨试试这6款养生粥

人民网 浏览 5934 07-17

业绩飘红,“美容院第一股”为何在资本市场“失宠”

国际金融报 浏览 1856 07-17

开会新体验:微软 Teams 公测沉浸式 3D 环境功能

IT之家 浏览 4295 07-29

自皮克福德加盟埃弗顿已在英超8次扑点,同期列所有门将第二

直播吧 浏览 427 08-25

乐道L90身上写满了蔚来的求生欲

禾颜阅车 浏览 464 08-12

蔚来2月交付2.08万台新车 同比增长57.6%

网易汽车 浏览 173 03-03

男婴离世家长获赔88万律师拿走55万 广州律协通报

都市快报橙柿互动 浏览 3337 07-18

梁朝伟谈《寂静的朋友》,它“改变了我与自然的关系”

幕味儿 浏览 241 11-05

AI入侵KTV,赛博大粪包围生活

酷玩实验室 浏览 2671 08-06

神舟二十号飞船以无人状态安全顺利返回,面对新挑战,更多任务细节公布

上观新闻 浏览 227 01-20

柴怼怼名下酒业公司因虚假宣传被罚款,曾称产品“能抗癌”

澎湃新闻 浏览 2359 07-29

多地“好房子”陆续入市 带动房地产市场回暖

中国商报 浏览 1111 07-30

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 312 10-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11