关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2026-02-04 00:00:01201人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

浙大突破:经验学习提升AI智能体现实世界物理认知

科技行者 浏览 210 01-28

欧盟官员终于警觉:特朗普借中国设局 好像算计了我们

观察者网 浏览 419 09-18

多地发布风险提示,防范披着“稳定币”马甲的骗局

IT之家 浏览 8780 07-27

D系列首款产品 零跑D19将于12月28日上市

车质网 浏览 219 12-20

女子称租车开4公里就出故障 被指操作不当遭索赔3.7万

极目新闻 浏览 5795 08-06

体重管理仅测BMI值还不够!推荐3大工具

人民网 浏览 828 04-01

彪马公布2025财年第二季度财报,中国市场鞋类业务增长12%

斑马消费 浏览 7172 07-26

迈阿密国际后卫法尔孔:若德保罗能加盟,会对我们有很大帮助

懂球帝 浏览 6107 07-14

baby近照脸好僵!被质疑打针了没恢复,37岁了又拍网红照太心酸

萌神木木 浏览 38 05-09

7月3日上市/预售23.58万 小鹏G7首搭3块图灵AI芯片

网易汽车 浏览 2553 07-01

49岁李湘最新露面过胖!走路肉都在颤,热爱吃甜食网友担心三高

萌神木木 浏览 10087 07-23

桑乔替补登场又被换下,埃梅里:这不是惩罚,而是战术决定

懂球帝 浏览 274 10-28

媒体:美国盯上铜、银、煤炭等矿产 下一步或加税

澎湃新闻 浏览 330 11-08

气场拉满:泰国改装厂让长城坦克300“变身”Brabus G63

IT之家 浏览 232 01-12

baby相隔17年同角度怼脸拍!全脸变化肉眼可见

萌神木木 浏览 165 03-03

起拍价160万!一个高尔夫俱乐部会籍号码将拍卖,前主人曾是上市公司董事长

红星资本局 浏览 487 08-21

西班牙全能战士阿尔卡拉斯,怎么可能不擅长硬地作战呢?

网球之家 浏览 8162 07-29

名古屋望与南京恢复交流 前市长曾称南京大屠杀不存在

新民周刊 浏览 3671 08-06

9系大六座旗舰SUV又添一员 智己LS9预售33.69万起

网易汽车 浏览 233 11-06

王中磊夫妇转战短视频,影视一哥到底怎么了?

BT财经 浏览 168 12-02

孙怡妈妈疑似替女儿发声:董子健和妈妈不管孩子

兴史兴谈 浏览 1214 08-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11