参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

工信部印发通...

87岁画家范...

记者：在不用...

2025凉鞋...

记者：卢克曼...

有产品收益率...

官媒揭开70岁潘虹的真实现状，董卿说的一点没错

大众CEO称放弃转行军火商：不造坦克武器，还是做车企

DO：拜仁与利物浦就迪亚斯转会达全面协议，转会费7500万欧签约4+1年

妈妈说，把头发梳上去大大方方的才好看！

美印闹僵：印过于自信以为美不能忽视14亿人口市场

以媒：以色列宣布关闭领空

半年时间，智己汽车生死突围

中方严正回应美方抹黑：乌克兰危机需政治解决

巴黎时装周刘诗诗美出新高度！越来越好看的关键点原来在这儿！

特朗普第二次警告以色列：现在袭击伊朗不合适

王艳成保健食品带货榜首！富豪老公欠债跑路

深圳租客人均2000元合租独栋别墅中介劝：慎重选择

Lazada和天猫把系统打通了

离婚4年佟丽娅又官宣喜讯，陈思诚已高攀不起

《罗小黑战记2》票房井喷，打了多少资本的脸？木头这次又赌对了

官方：退休人员基本养老金上调2%

糊了22年，他终于凭借「性张力」火了

吃相难看！汪峰直播卖课，被嘲割韭菜

江苏银行“封王”：对公狂飙，资本金“告急”

90后宝妈网购猪食槽收纳孩子玩具走红商家:订单超6倍

今年秋天最流行的5件西装！

深圳机场三跑道校飞完成跑滑系统等具备使用条件

记者被紧急召唤到椭圆形办公室听取特朗普＂重大＂宣布

潘功胜最新讲话7大要点！涉稳定币，信息量满格