关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02138人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

前三季度私募产品“超涨”十强!复胜、远信、歌汝等夺冠!

私募排排网 浏览 57 10-17

澳方称中方军机在南海对澳军机释放干扰弹 外交部回应

澎湃新闻 浏览 21 10-21

大疆最轻、最小无人机继任者:Neo 2配 11.6 Wh 电池,增幅 10.7%

IT之家 浏览 9321 07-25

中国渔民多次捞到"间谍鱼":呈球形 上面有外国字

环球网资讯 浏览 207 08-23

官方:罗马签下18岁尤文门将热莱兹尼,他将身披91号球衣

懂球帝 浏览 5245 07-24

实力洗眼!一秒就被她惊艳

吐槽电影院 浏览 1610 07-16

夫妻持股泰凯英近八成,无自主生产,主要代工厂账务违约

权衡财经 浏览 160 09-10

股市,两个好消息!

小白读财经 浏览 6169 07-29

赵少康为何不参选国民党主席 陈文茜:他怕妻女怕得要死

海峡导报社 浏览 17 10-28

特斯拉Robotaxi周末加州上线?官方:查无此申请

财联社 浏览 9300 07-27

115亿身价“茂名首富”,冲刺港股IPO

侃见财经 浏览 2671 08-12

父子到深圳摆摊"搞钱"微信余额只有5块 见到城管失控

环球网资讯 浏览 159 09-08

最高法改判福清祖屋强拆案后 屋主再提诉讼

澎湃新闻 浏览 60 10-13

太阳报:英超想本赛季引入裁判摄像头,联盟将要求俱乐部同意

懂球帝 浏览 2229 07-31

蔚来官宣:降价2万元

第一财经资讯 浏览 191 08-20

9岁网球女孩晒成"老抽色" 爸爸:光线问题 肤色健康

潇湘晨报 浏览 5938 07-24

"李世民"饰演者景区跳科目三:我就是缺钱 缺钱丢人吗

中国新闻周刊 浏览 133 09-07

演唱会"出轨门"CEO有两子 若离婚分手费或超3千万美元

红星新闻 浏览 7877 07-22

谈判数月后 特朗普称即将与哈佛敲定协议

大象新闻 浏览 105 10-02

全网最后一批躺赚博主,也被AI挤兑失业了

新周刊 浏览 57 10-13

广东此前买了优先续约权!经纪公司宣:麦考尔加盟广东男篮

直播吧 浏览 102 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11