关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01474人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全新宝马X5更新归来!起售价下探至不足60万,轴距超3米1,很亲民

小史谈车 浏览 213 02-02

马杜罗纽约"首秀"神态轻松 比"V字剪刀手"遭多方解读

红星新闻 浏览 226 01-08

英伟达涨逾1% 股价再创新高

证券时报 浏览 2226 07-12

看来看去还是这些穿搭最适合夏天,不沉闷、不显老,舒适减龄

静儿时尚达人 浏览 356 08-31

亚洲首个跨境输电的新能源项目投运

IT之家 浏览 3200 07-27

文章开奔驰大G现身街头副驾驶疑似姚笛 两人近况被扒

叶公子 浏览 616 08-12

特朗普“变脸”背后,汽车产业掀起“心脏保卫战”

汽车观察AUTO 浏览 526 05-23

终于等到井柏然秀恩爱

科学发掘 浏览 445 08-21

俄载有49人客机坠毁无人生还 乘客中包括5名儿童

荔枝新闻 浏览 6836 07-25

花式创收!西媒:巴萨推出新款线上球星卡,创造新的收入来源

直播吧 浏览 365 09-10

贺炜:洪水虽然可以漫过村超的草皮,但热爱永不沉没

懂球帝 浏览 5162 07-27

凤凰组合2-0程星/张驰,晋级韩国羽毛球公开赛混双4强

直播吧 浏览 239 09-26

这些才是最适合普通人的穿搭,夏天认准T恤和裙子,舒适又大方

静儿时尚达人 浏览 4516 06-14

官方:莱比锡边锋埃尔马斯租借回归那不勒斯,后者可选择买断

直播吧 浏览 423 09-02

内娱又一爆雷,内幕没那么简单

独立鱼 浏览 342 09-26

日产天籁继任者提前曝光?这设计比18款年轻太多!

念寒车评 浏览 508 06-10

深夜美股三大指数下挫,中概股逆势飘红,小鹏汽车大涨超13%

21世纪经济报道 浏览 418 08-22

杠上了!皇马与西甲争议盘点:点球未判、突遭药检、首轮延期被拒

直播吧 浏览 340 09-22

被娱乐圈催熟的林妙可王诗龄!

八星人 浏览 234 01-18

纳格尔斯曼:离开莱比锡有点早,但加盟拜仁并非一个错误

懂球帝 浏览 9590 07-31

“我在XX中躲牛市!”投资者如何应对?

券商中国 浏览 328 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11