关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01297人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美退役上校揭秘B2连飞44小时内幕

现代快报 浏览 6588 06-26

媒体:北京密云两地四天下了近一年的雨

新京报 浏览 5762 07-30

大号手机确认!华为MatePad Mini外观揭晓 能打电话的小平板来了

快科技 浏览 225 09-01

5岁女童被废弃电线杆砸中身亡 父亲:已不通电20多年

大风新闻 浏览 251 09-17

杨瀚森15分三分6中3均创新高!开拓者险胜鹈鹕

网易体育 浏览 1439 07-17

COSMO美容大奖 | 推开东方美肤秘境之门

时尚COSMO 浏览 285 08-15

西班牙全能战士阿尔卡拉斯,怎么可能不擅长硬地作战呢?

网球之家 浏览 7969 07-29

分期+分成,体图:法鹰卖埃基蒂克今年实际入账只有2000万欧

懂球帝 浏览 9752 08-13

接近量产状态 小米YU7 GT再次现身纽北赛道

车质网 浏览 91 10-21

拉夫罗夫被指"地位下降" 克宫否认其与普京关系紧张

红星新闻 浏览 54 11-11

昔日"水果贵族"价格大跳水 从300元一斤跌至9.9元3斤

极目新闻 浏览 256 08-25

针织+半裙,秋天最经典搭配,好看又减龄!

LinkFashion 浏览 160 09-17

快手、微博被网信部门查处

新京报政事儿 浏览 232 09-21

美大豆协会:呼吁尽早同中国达成协议 缓解豆农危机

央视新闻客户端 浏览 349 08-21

打破观众人数纪录!官方:美网混双共有78000名球迷到场观看

直播吧 浏览 248 08-22

双曲线一号遥十运载火箭发射成功

上观新闻 浏览 10102 07-31

中国管制稀土出口 全球车企急了

澎湃新闻 浏览 4560 06-05

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

新智元 浏览 38 12-02

三星电子Q2营利骤降55% 芯片业务仍深陷增长泥潭

财联社 浏览 9778 07-31

限时领享价10.76万起/有新配色 领克06 Relive上市

网易汽车 浏览 6221 08-06

饭都不香了,奥尔特曼焦虑:美国低估了中国…

观察者网 浏览 270 08-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11