关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01419人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李斌、李想,看上了同一块蛋糕

豹变 浏览 1738 08-10

海天味业,又跌懵了!

财经锐眼 浏览 8150 08-09

李书福罕见发声,吉利豪掷20亿“苦练安全内功”

华山论剑 浏览 229 12-15

马斯克出局,特朗普拥抱硅谷新朋友

国际金融报 浏览 10243 07-24

多地网约车平台被约谈,叫停“一口价”等低价无序竞争!

红星资本局 浏览 4190 07-18

特朗普拟对芯片征收100%关税

第一财经 浏览 9504 08-07

七匹狼一年靠投资赚超3亿,男装不行投资来救该咋看?

江瀚视野 浏览 82 04-22

哥伦比亚一小型飞机在亚马孙地区坠毁 4人死亡

极目新闻 浏览 283 08-25

暑假一过完,市场又到了工作日两三千万票房状态,九月就《731》还有些热度,等国庆档吧,上壁纸大家收图

电影最TOP 浏览 319 09-10

《东极岛》全网捂嘴惹众怒,律师直接硬刚片方:拿名誉权做牌坊

萌神木木 浏览 9963 08-13

媒体:哈梅内伊大意了 他在最关键的时刻相信了美国

经济观察报 浏览 169 03-03

全车三排Nappa真皮包覆 全新别克GL8陆尊座舱信息

网易汽车 浏览 10213 08-02

三架飞机在俄罗斯被扣 山河智能:收到1.6亿保险赔款

红星新闻 浏览 583 08-12

61岁朱军近况曝光!扎根甘肃成治沙“老把式”

代军哥哥谈娱乐 浏览 223 01-10

黄子韬婚礼险翻车!许艺洋喊错男朋友

林木体育解说 浏览 323 10-20

牛弹琴:特朗普对印态度又180度转弯 全世界哭笑不得

大象新闻 浏览 453 09-07

超声图像中囊肿与结节的区别,你知道么?

网易健康 浏览 5195 02-06

杜兰特谈28年洛杉矶奥运会:很乐意参加,必须保持高水平状态

懂球帝 浏览 168 02-24

伊朗发起新一轮导弹袭击 以色列多地有人员受伤

央视新闻客户端 浏览 7326 06-17

“有趣”的时髦,藏在穿搭里

Yuki女人故事 浏览 8753 08-14

"困在轮椅上"的女孩在音乐节被高高举起:我好像重生了

上游新闻 浏览 5579 06-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11