参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

美媒：特朗普...

科森科技被动...

王毅谈及泰柬...

蓝佛安：用好...

国家外汇管理...

百度发放开工...

微波炉几乎家家都有，但你可能真不会用

宗馥莉家庭被扒，父亲作风不正关系畸形

许利民：如此困难的情况下大家坚持到了最后，取胜全靠精神力

小学频繁考试成常态：学生抵触上学老师说考试遭警告

固特异股价蒸发40%，百年轮胎帝国遭遇“中年危机”

高云翔晒与女儿合拍视频，父女合作好温馨

游客境外租车加错油＂全额保险＂被判失效还被扣6000元

特朗普指责银行歧视：摩根大通要求20天内关账户，美银拒绝他10亿美元存款

张水华重马创个人第二好成绩丈夫解释她嘴唇发黑

造车17年！又一合资工厂停止运营

郑丽文要让国民党＂羊群变狮群＂：不是反咬一口而已

＂底特律三巨头＂不满日美关税协议担心竞争中处于劣势

NASA禁中国公民参与项目专家：暴露美方焦虑心态

德天空:不莱梅与利兹联后卫施密特达原则协议俱乐部间在商讨细节

中方放行结果菲律宾在仁爱礁刚补给成功就立刻＂翻脸＂

最适合早秋的3种风格，又美又飒！

乌军：袭击俄空军基地 4架飞机被击中

“印度主导的这个市场，中国品牌领先了”

花湖国际机场开通4条“荔枝航线” 每日200万颗鲜果飞全国

涉结束俄乌冲突美媒披露＂12点方案＂

理想汽车率先落地VLA司机大模型，让辅助驾驶成为“私人司机”

乌军突袭俄本土，普京面临严峻挑战

时隔28年，宋丹丹才是赢家

美因茨4-1大胜奥格斯堡，席布建功，内贝尔破门