关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01293人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《731》风波升级!原编剧放弃署名,导演赵林山自曝拿龙标疑造假

萌神木木 浏览 4574 08-03

映乡好物&生鲜早市创始人刘渊当社区主播:不同意,才有力!引领银发电商破局之旅|对话新经济人物

封面新闻 浏览 220 09-01

金正恩观摩 朝鲜试射“优越独创新颖”防空导弹

潇湘晨报 浏览 309 08-25

擅自使用军机形象进行宣传 理想汽车回应

澎湃新闻 浏览 189 09-26

记者:埃弗顿最近对格拉利什的追求力度最大

懂球帝 浏览 9384 07-30

李开复,在成都投了一家“0卡糖”

投中网 浏览 133 10-13

重大资产重组!刚刚公告,明日复牌!

券商中国 浏览 174 09-22

领跑西部“万亿级”赛道的,为什么是这座城市?

西部城市 浏览 7836 07-26

当宇树机器人“打”起来了……居然全在围观,没人劝!

上观新闻 浏览 4595 07-27

媒体:中美对欧洲的看法倒是挺一致 都认为其无关紧要

澎湃新闻 浏览 4717 07-15

特斯拉官宣Model Y L秋季上市,大六座、加长版

界面新闻 浏览 2470 07-17

铜铜铜,快要高攀不起了

每日资本论 浏览 13 12-11

iPhone将放弃L异形电池!苹果终于悟了,国产手机笑了

雷科技 浏览 4698 08-07

十三届全国政协经济委员会副主任张效廉被提起公诉

最高人民检察院 浏览 210 09-09

蔡依林陷入抄袭风波!新专辑造型构图撞张韶涵,过往抄袭争议被扒

萌神木木 浏览 730 07-17

这条裙子,今年悄悄火遍全网,冬天穿好有氛围

黎贝卡的异想世界 浏览 23 11-30

欧盟宣布制裁以 以总理反问:咋没人说美侵犯阿富汗

博览历史 浏览 62850 09-19

紫金银行聘任阙正和为行长,兼任首席合规官

派财经 浏览 232 08-23

记者:森林仍在推进签下曼城中场麦卡蒂的交易

懂球帝 浏览 2175 07-29

昔日巨头接连受挫,领先只剩1-3年,日本功率芯片遭遇中国价格战

网易科技报道 浏览 258 08-20

全都要?罗马诺:利物浦一定会签中卫,不排除同时买格伊+莱奥尼

直播吧 浏览 319 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11