参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

破解从业资格...

特斯拉车顶维...

更为优雅阿...

光伏巨头通威...

快手亮出流量...

德天空：利物...

王欣瑜进四强遭捷克三娃包围，比赛遭遇强行延期被质疑遭赛事针对

程强：外部冲击下市场波动加剧

中国女足在进攻三区传球成功率仅为64%，为四强球队中最低

女子不慎接触废弃氢氟酸中毒身亡官方通报

九三阅兵刚结束解放军的第一份警告送给挑衅的菲律宾

瑞幸咖啡，没有对手？| 业绩狂飙

福特缩小版“猛禽”上市！外观粗犷而硬朗，搭载2.3T柴油四驱+8AT

将尽快召回员工！停产1个月的宁德时代宜春锂矿预计很快复产！

曾接近加盟曼城！英媒：西汉姆联考虑出售帕奎塔，要价6000万镑

OPPO / vivo / 小米 / 荣耀 / 联想联合推出隐私权限体系

春秋航空一航班疑起飞后＂砸下来＂航司：机械故障

隐瞒了28年后，杨钰莹终于坦白？

高考冲刺阶段，送给高考生6条饮食建议

姜文女儿婚礼细节，周韵携儿子坐主人席

采用SSP全新平台新款奥迪A4最新消息曝光

香港机场接连有飞机发生故障多方回应

千亿梯媒巨头25亿巨额计提背后，监管“导火索”已引燃半年之久

AI股现“冰火两重天”

媒体：伊朗总统对话特朗普＂自己人＂谈核问题用意颇深

24岁王源的身份焦虑：撕不掉的TFBOYS标签，走不出的偶像困局

马斯克：特斯拉FSD V14大约6周后发布，参数提升10倍

女子被指遭迷信求子的父母＂砍手割耳＂警方介入调查

伊朗议会通过暂停与国际原子能机构合作的法案

国产平替们的户外梦，膨胀起来了