关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:0286人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

妈妈说,把头发梳上去大大方方的才好看!

时尚COSMO 浏览 8184 08-07

美印闹僵:印过于自信 以为美不能忽视14亿人口市场

澎湃新闻 浏览 3937 08-07

以媒:以色列宣布关闭领空

环球网 浏览 6493 06-13

半年时间,智己汽车生死突围

优视汽车 浏览 7222 07-23

中方严正回应美方抹黑:乌克兰危机需政治解决

浏览 7774 07-14

巴黎时装周刘诗诗美出新高度!越来越好看的关键点原来在这儿!

LinkFashion 浏览 95 10-21

特朗普第二次警告以色列:现在袭击伊朗不合适

上观新闻 浏览 3042 05-30

王艳成保健食品带货榜首!富豪老公欠债跑路

吃瓜少女张小暖 浏览 287 08-25

深圳租客人均2000元合租独栋别墅 中介劝:慎重选择

每日经济新闻 浏览 3008 08-09

Lazada和天猫把系统打通了

华尔街见闻官方 浏览 148 09-26

离婚4年佟丽娅又官宣喜讯,陈思诚已高攀不起

窥史 浏览 9584 07-31

《罗小黑战记2》票房井喷,打了多少资本的脸?木头这次又赌对了

娱乐圈笔娱君 浏览 3430 07-21

官方:退休人员基本养老金上调2%

央视新闻客户端 浏览 7686 07-11

糊了22年,他终于凭借「性张力」火了

独立鱼 浏览 95 10-27

吃相难看!汪峰直播卖课,被嘲割韭菜

猛哥的搞笑视频 浏览 5664 07-23

江苏银行“封王”:对公狂飙,资本金“告急”

节点财经 浏览 231 09-11

90后宝妈网购猪食槽收纳孩子玩具走红 商家:订单超6倍

极目新闻 浏览 94 10-26

今年秋天最流行的5件西装!

LinkFashion 浏览 184 09-05

深圳机场三跑道校飞完成 跑滑系统等具备使用条件

环球网资讯 浏览 2184 08-04

记者被紧急召唤到椭圆形办公室 听取特朗普"重大"宣布

环球时报新闻 浏览 5109 08-09

潘功胜最新讲话7大要点!涉稳定币,信息量满格

21金融圈 浏览 83 10-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11