关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02202人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

王兴兴:人形机器人正加速渗透这四大关键领域!

看看新闻Knews 浏览 5137 07-16

航母“弹射三连”释放哪些信号

经济日报 浏览 157 09-28

关税政策遭质疑,特朗普抨击高盛CEO:不如回家当DJ!

国际金融报 浏览 5732 08-14

20名以色列被扣押人员将分两批获释

CCTV国际时讯 浏览 103 10-14

11岁男孩摆摊卖奶茶月入4000元 母亲:他有商业头脑

极目新闻 浏览 266 08-20

美记者:若特朗普决定 泽连斯基或被流放

环球网资讯 浏览 4016 07-21

欧尔班不满:美国自己跟中国做生意 却要我们别这么干

澎湃新闻 浏览 3328 06-18

和李晨分手6年后嫁普通人,她整个人都变样了

青史楼兰 浏览 57 11-08

龚琳娜首谈离婚原因:纠缠太牢,是喜离

小嵩 浏览 8387 07-23

AI教父辛顿现身上海:人类如何不被AI杀掉

态℃ 浏览 8962 07-27

盛大阅兵倒计时9天 80秒回顾三次综合演练画面

央视新闻客户端 浏览 143 08-26

美股三大指数续创新高,苹果涨超3%

中新经纬 浏览 148 09-20

硅谷巨头强强联手!谷歌与Meta达成100亿美元云计算合同

财联社 浏览 283 08-22

7500万欧签28岁即战力!吧友们认为拜仁签迪亚斯是笔好交易吗?

直播吧 浏览 6050 07-29

法拉第未来官宣10月8日交付下一台 FF 91 2.0 Futurist Alliance

IT之家 浏览 191 09-26

揭秘未来预测的终极考场:FutureX如何测试AI预言家的真本事

科技行者 浏览 176 09-10

品质餐饮下半场,它正在被头部餐厅“翻牌子”

餐饮老板内参 浏览 9829 07-27

或引入国内 特斯拉Model Y高性能版谍照曝光

车质网 浏览 4092 06-24

今年秋天最流行的外套,“短一点”才时髦!

LinkFashion 浏览 213 09-10

菲船只向中国海警举白旗投降 马科斯沉默1天发落泪照

科技有趣事 浏览 66035 09-19

张靓颖的眼镜,戴和摘都是错

时尚COSMO 浏览 4955 07-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11