关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01473人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子不慎接触废弃氢氟酸中毒身亡 官方通报

界面新闻 浏览 322 09-16

九三阅兵刚结束 解放军的第一份警告送给挑衅的菲律宾

空天力量 浏览 446 09-08

瑞幸咖啡,没有对手?| 业绩狂飙

伯虎财经 浏览 536 08-11

福特缩小版“猛禽”上市!外观粗犷而硬朗,搭载2.3T柴油四驱+8AT

小史谈车 浏览 500 05-20

将尽快召回员工!停产1个月的宁德时代宜春锂矿预计很快复产!

证券时报e公司 浏览 410 09-10

曾接近加盟曼城!英媒:西汉姆联考虑出售帕奎塔,要价6000万镑

直播吧 浏览 7125 07-30

OPPO / vivo / 小米 / 荣耀 / 联想联合推出隐私权限体系

IT之家 浏览 472 08-19

春秋航空一航班疑起飞后"砸下来" 航司:机械故障

潇湘晨报 浏览 4954 07-18

隐瞒了28年后,杨钰莹终于坦白?

聚合大娱 浏览 9405 08-04

高考冲刺阶段,送给高考生6条饮食建议

人民网 浏览 6968 06-03

姜文女儿婚礼细节,周韵携儿子坐主人席

湘村大余 浏览 2996 08-13

采用SSP全新平台 新款奥迪A4最新消息曝光

乐选爱车 浏览 290 10-13

香港机场接连有飞机发生故障 多方回应

南方都市报 浏览 8680 05-27

千亿梯媒巨头25亿巨额计提背后,监管“导火索”已引燃半年之久

野马财经 浏览 184 02-03

AI股现“冰火两重天”

国际金融报 浏览 483 08-20

媒体:伊朗总统对话特朗普"自己人"谈核问题 用意颇深

上观新闻 浏览 1400 07-10

24岁王源的身份焦虑:撕不掉的TFBOYS标签,走不出的偶像困局

Yuki女人故事 浏览 384 09-09

马斯克:特斯拉FSD V14大约6周后发布,参数提升10倍

IT之家 浏览 3646 08-12

女子被指遭迷信求子的父母"砍手割耳" 警方介入调查

扬子晚报 浏览 520 08-22

伊朗议会通过暂停与国际原子能机构合作的法案

界面新闻 浏览 2166 06-26

国产平替们的户外梦,膨胀起来了

深眸财经 浏览 1025 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11