关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01164人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

聚焦WAIC|业内首款,新一代液冷AI一体机发布!

中国经济时报 浏览 4955 07-28

具俊晔深情人设翻车!年轻时抛弃大S,人不在了守着墓地毫无意义

萌神木木 浏览 5893 07-29

专家:中美元首通话 两国关系可能要进入元首会晤阶段

澎湃新闻 浏览 117 09-21

头部乳企提效实践:如何让业务“一问就有数”?

虎嗅APP 浏览 10021 07-26

冯绍峰带女友购物,疑似小19岁女星周麟嘉

阿废冷眼观察所 浏览 5955 08-05

媒体:逼死邵医生的不止患者和家属 医院平台也需担责

新民周刊 浏览 897 08-07

博主:曼联希望塞斯科本人主动推动转会,维维尔正在游说他

直播吧 浏览 3987 07-31

金山云(KC.US)携6大AI创新成果亮相WAIC

智通财经 浏览 2638 07-27

开价172亿收回极氪,李书福溢价收购到底想干嘛?

江瀚视野 浏览 6278 07-27

巴总理提和平倡议 印总理喊话巴人民反对恐怖主义

环球网资讯 浏览 6083 05-28

今年夏天最流行的裙子,配这4双鞋才好看!

LinkFashion 浏览 8134 06-10

今年阅兵空中梯队有装备系首次公开亮相

央视新闻 浏览 220 08-20

轻松!王楚钦横扫张本智和,取得对阵张本智和的8连胜

直播吧 浏览 2639 07-14

周杰伦换台,短视频进入“细糠”时代

价值星球Planet 浏览 7376 07-31

工行市值逼近3万亿,五年内A股会诞生万亿美元市值的公司吗?

郭施亮 浏览 1001 07-14

GDP全国第六,却“苦大学少久矣”!苏州怎么破?

国是直通车 浏览 1971 07-14

法拉利老了还是法拉利,这可是梁家辉

时尚COSMO 浏览 146 09-10

“半路截胡”张益唐,北大出身的中山大学校长这样做

量子位 浏览 201 08-22

许倬云去世:系王力宏舅爷爷 曾遗憾"但悲不见九州同"

鲁中晨报 浏览 2207 08-05

首次出舱活动 9 小时,神十九航天员讲述太空出舱遇意外细节

IT之家 浏览 3809 07-28

苏醒为“胡辣汤言论”致歉,公开发言当避免“拉踩”|新京报快评

新京报 浏览 83 10-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11