关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02251人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《731》风波升级!原编剧放弃署名,导演赵林山自曝拿龙标疑造假

萌神木木 浏览 4738 08-03

卖零食的,上市首日暴涨88%!股价400港元,合理吗

财通社 浏览 202 01-29

特朗普向米莱表态:若你们与中国军方合作 我很不高兴

环球网资讯 浏览 323 10-16

海关总署:上半年我国货物贸易进出口同比增长2.9%

央视新闻 浏览 4917 07-14

特朗普被耍了 中国邻国强硬一回说好的3500亿不给美了

空天力量 浏览 453 10-02

何鸿燊仨子女观礼阅兵,何超琼带了三房的弟弟

叶公子 浏览 354 09-07

上新好丽友的山姆到底得罪谁了?

江瀚视野 浏览 1199 07-17

瑞信前副总裁挪用客户资金,判囚13年,24名高净值人士获赔8690万

财通社 浏览 225 01-12

理想取消i8 Pro,将i8 Max改为标配并降价

网易科技报道 浏览 1368 08-06

试飞员李国恩:首飞歼-15是我一辈子的荣耀

环球网资讯 浏览 3738 07-09

媒体:中国该如何在军事部署上经营台湾 如今值得思考

新民周刊 浏览 242 11-10

增程车的价格体系要重写,电池越来越大,但车价越来越低?

路咖汽车 浏览 356 10-01

河南遇罕见干旱:有的地块水费超1000元 有人放弃浇地

央视网 浏览 2287 08-09

汪小菲全家出游乐开花,箖箖戒游戏玥儿显淡定!

可乐谈情感 浏览 5942 07-14

凑齐“56789”!问界独占鸿蒙智行7成销量,“5界”如何共扛百万辆目标?

时代周报 浏览 218 02-03

TA:维阿在接受马赛体检,100万欧租借费+1400万欧强制买断

直播吧 浏览 1310 08-07

华为坤灵中国行首站落地上海,助力中小企业智能化跃升

上观新闻 浏览 242 10-31

前安永合伙人,因酒吧斗殴被解雇,早前涉嫌勾引已婚女合伙人被警告

财通社 浏览 244 11-03

美国举起关税大棒持续施压 伊朗要给“难忘教训”

环球网资讯 浏览 227 01-14

76岁林子祥近况曝光,与小14岁娇妻恩爱27年

丹妮观 浏览 9323 07-25

美国教授:印度该醒醒了 跟着美国对抗中国捞不着好

澎湃新闻 浏览 588 08-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11