参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

辽篮展温馨一...

法拉利296...

全运男足U2...

曝保时捷正在...

窦骁何超莲不...

爱美客营收净...

贵=好用？这个刚需我们试了一堆才选到合适的

特朗普“变脸”背后，汽车产业掀起“心脏保卫战”

特朗普宣称要“解放美国首都”：先派800人不够再加

《731》风波升级！原编剧放弃署名，导演赵林山自曝拿龙标疑造假

映乡好物&生鲜早市创始人刘渊当社区主播：不同意，才有力！引领银发电商破局之旅｜对话新经济人物

金正恩观摩朝鲜试射“优越独创新颖”防空导弹

擅自使用军机形象进行宣传理想汽车回应

记者：埃弗顿最近对格拉利什的追求力度最大

李开复，在成都投了一家“0卡糖”

重大资产重组！刚刚公告，明日复牌！

领跑西部“万亿级”赛道的，为什么是这座城市？

当宇树机器人“打”起来了……居然全在围观，没人劝！

媒体：中美对欧洲的看法倒是挺一致都认为其无关紧要

特斯拉官宣Model Y L秋季上市，大六座、加长版

铜铜铜，快要高攀不起了

iPhone将放弃L异形电池！苹果终于悟了，国产手机笑了

十三届全国政协经济委员会副主任张效廉被提起公诉

蔡依林陷入抄袭风波！新专辑造型构图撞张韶涵，过往抄袭争议被扒

这条裙子，今年悄悄火遍全网，冬天穿好有氛围

欧盟宣布制裁以以总理反问：咋没人说美侵犯阿富汗

紫金银行聘任阙正和为行长，兼任首席合规官

记者：森林仍在推进签下曼城中场麦卡蒂的交易

昔日巨头接连受挫，领先只剩1-3年，日本功率芯片遭遇中国价格战

全都要？罗马诺：利物浦一定会签中卫，不排除同时买格伊+莱奥尼