关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01232人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“前老板娘”火力全开,炮轰可靠股份不可靠

斑马消费 浏览 206 08-26

深圳12家银行罕见集体发声明,与我行无关、无任何合作关系

湘财Plus 浏览 569 07-16

WAIC上的“最强大脑”对话:机器人如何走向真实世界?

南方都市报 浏览 1056 07-30

佳缘科技双轮启动

富凯财经 浏览 7583 08-11

净利润大跌47%!华润三九,业绩失速

侃见财经 浏览 199 08-19

官方:罗马签下18岁尤文门将热莱兹尼,他将身披91号球衣

懂球帝 浏览 5244 07-24

奥迪 Q6L e-tron / Sportback e-tron 双电机四驱版申报

IT之家 浏览 124 09-11

队报:恩里克引援明示多纳鲁马必须走,更衣室和球员团队对此不解

直播吧 浏览 3080 08-12

与美方会晤后王毅用16个字定调 中美有重头戏要上演

掌青说历史 浏览 10159 07-13

张兰端菜不给儿媳,念叨心急吃不了热豆腐

娱乐官已上任 浏览 193 08-29

台媒滚动播放九三阅兵 国防部回应

北京日报 浏览 121 09-26

浙江一男子泳池跳水时颈椎严重受伤不治身亡 家属发声

新民晚报 浏览 16 10-26

导演王晟赫疑讽刺向太蹭流量,为什么重提张国荣

小徐讲八卦 浏览 146 09-08

52岁男星赔了3.8亿!沉迷炒币不愿脱身,网友直言很难有好下场

萌神木木 浏览 39 10-13

媒体:欧洲发起声势浩大的"撑腰"行动 结局或刺痛自己

红星新闻 浏览 244 08-21

工人如厕被误当猎物枪击身亡 专家谈涉罪责一关键情节

辽沈晚报 浏览 1482 08-10

英伟达宣布50亿美元入股英特尔 双方还将联合开发芯片

财联社 浏览 110 09-19

特朗普的亲家激怒法国政府:控告法国纵容"反犹情绪"

环球时报国际 浏览 228 08-26

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 39 10-21

桑乔拒绝罗马报价原因曝光!经纪人索1100万佣金,欲夺曼联转会费

罗米的曼联博客 浏览 208 08-20

印乐"空降"少林寺1个月:去商业化 捐款二维码无法付款

时代周报 浏览 242 08-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11