参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

刷游戏像刷视...

谷歌Deep...

日本电机巨头...

张艺谋谍战片...

上海海港夏窗...

林俊杰跟七七...

英伟达，怎么又给中国车企挖了个坑？

苏醒为“胡辣汤言论”致歉，公开发言当避免“拉踩”|新京报快评

解除留置，浙大博导恢复工作，2.6亿所得合法合规

全新宝马X5更新归来！起售价下探至不足60万，轴距超3米1，很亲民

马杜罗纽约＂首秀＂神态轻松比＂V字剪刀手＂遭多方解读

英伟达涨逾1% 股价再创新高

看来看去还是这些穿搭最适合夏天，不沉闷、不显老，舒适减龄

亚洲首个跨境输电的新能源项目投运

文章开奔驰大G现身街头副驾驶疑似姚笛两人近况被扒

特朗普“变脸”背后，汽车产业掀起“心脏保卫战”

终于等到井柏然秀恩爱

俄载有49人客机坠毁无人生还乘客中包括5名儿童

花式创收！西媒：巴萨推出新款线上球星卡，创造新的收入来源

贺炜：洪水虽然可以漫过村超的草皮，但热爱永不沉没

凤凰组合2-0程星/张驰，晋级韩国羽毛球公开赛混双4强

这些才是最适合普通人的穿搭，夏天认准T恤和裙子，舒适又大方

官方：莱比锡边锋埃尔马斯租借回归那不勒斯，后者可选择买断

内娱又一爆雷，内幕没那么简单

日产天籁继任者提前曝光？这设计比18款年轻太多！

深夜美股三大指数下挫，中概股逆势飘红，小鹏汽车大涨超13%

杠上了！皇马与西甲争议盘点：点球未判、突遭药检、首轮延期被拒

被娱乐圈催熟的林妙可王诗龄!

纳格尔斯曼：离开莱比锡有点早，但加盟拜仁并非一个错误

“我在XX中躲牛市！”投资者如何应对？