关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01228人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展，融合大模型的具身智能被认为是人工智能的下一发展阶段，成为学术界与工业界共同关注的话题。

在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时，能够将大规模算力高效利用的 RL infra 的重要性也日益凸显，近期也涌现出一批优秀的框架，极大地促进了该领域的发展。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

全球市场后续“脚本”来了

国际金融报浏览 5474 08-10

“林下生金”，看生态与产业如何共振

海外网浏览 87 10-25

印度客机坠毁：系波音787-8“梦想客机”

CCTV国际时讯浏览 2847 06-13

精彩推荐

美执法人员突袭抓捕大批韩国人包括工程师特朗普发声

每日经济新闻浏览 220 09-07

无敌！陈熠近两站比赛，先后击败世界第一孙颖莎&世界第二王曼昱

直播吧浏览 7381 08-09

浙大团队突破：AI实现多人脸精准生成

科技行者浏览 76 10-22

利润蹿升330%，固态电池独角兽，藏不住了！

飞鲸投研浏览 7923 08-10

伊朗情报部长：已掌握大量以色列核机密文件

凤凰卫视浏览 5114 06-09

收手吧IDM，外面全是Fabless

爱集微浏览 6687 07-30

＂菲华人钢铁大王＂遭撕票案主谋系26岁女子详情披露

红星新闻浏览 1353 08-05

女子代购海外＂不老药＂疑遭职业打假人起诉＂退一赔十＂

大风新闻浏览 80 11-01

五六十岁女性别瞎穿，教你三步解锁优雅气质，轻松告别油腻感

静儿时尚达人浏览 91 10-26

海博思创从百亿到千亿市值，还需几步？

节点财经浏览 222 09-02

为脑部疾病研究提供“加速度”，国际灵长类介观脑图谱联盟在沪成立

上观新闻浏览 157 09-20

39岁中锋~名记：预测霍福德会和勇士签两年1100万合同含球员选项

直播吧浏览 9859 07-30

德总理：希望伊朗政府垮台我们要对付的是恐怖政权

参考消息浏览 8047 06-19

男子被传找小三遇车祸重伤妻子因孩子要政审忍受家暴

极目新闻浏览 292 08-22

这些地铁，在花式搞钱

花朵财经浏览 291 08-20

苹果悄然调整tvOS 26设置菜单：部分HomeKit更名为Apple Home

IT之家浏览 3236 08-10

韩红舞台暴怒叫停！含泪痛斥：必须对观众负责！

子非鱼说说浏览 594 07-17

业绩预增+二次上市，澜起科技还有啥烦恼？

铑财浏览 8475 07-30

奥迪 E5 Sportback开启预售限时23.59万起

澎湃新闻浏览 301 08-19

“聪明的阿凡提”，来自土耳其？

时尚COSMO 浏览 32 11-27

2146万总奖金！9月乒乓赛程出炉：澳门冠军赛+中国大满贯即将到来

乒谈浏览 209 09-01

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11