关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01421人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奥地利飞机坠毁 机上人员全部遇难

极目新闻 浏览 3659 07-07

伊能静暑假带娃,秦昊让9岁女儿骑脖子上

二妹扯娱 浏览 995 07-12

浙BA决赛G3丽水队59-58杭州队避免被横扫,倪豪凯砍33分+准绝杀

懂球帝 浏览 197 02-05

戴森新一代无叶冷暖风扇AM15发布,首发价3790元

IT之家 浏览 232 11-17

阿Sa闪婚原因曝光,曾冻卵计划40多岁生小孩

萌神木木 浏览 65 04-29

蔡少芬曝自己跪地痛哭,张晋差点心脏堵塞“走人”,感恩最终没有

温柔娱公子 浏览 467 08-22

杜锋:希望大家能保持整场的强度,为年轻球员登场争取机会

懂球帝 浏览 208 01-29

跟约基奇第一次聊天聊啥了?瓦兰:聊的赛马,他给了我点建议

懂球帝 浏览 387 09-09

海外记者:博塔弗戈边锋热菲尼奥即将租借至中国俱乐部

懂球帝 浏览 239 01-06

天安门广场9月1日至3日暂停开放

北京日报客户端 浏览 437 08-25

TVB老戏骨吴博君病逝,生前患渐冻症经济困难,靠患病妻子照顾

萌神木木 浏览 4503 07-16

空中客车:任命王璀担任全球高级副总裁及空客中国民用飞机商务负责人

经济观察网 浏览 323 09-29

福建舰弹射甲板焕然一新 8万吨巨舰做好最后服役准备

空天力量 浏览 1448 07-18

这场会议将影响全球市场走向

国际金融报 浏览 535 08-21

78岁罗家英谈抗癌疗法:注射女性荷尔蒙 不会恐惧死亡

上观新闻 浏览 1236 07-17

京东领投,宁德时代旗下资本跟投!众擎机器人融资近10亿元

证券时报 浏览 9107 07-21

《披哥5》初舞台惊喜多:第一众望所归,3大黑马抢眼,0731撑门面

娱乐圈笔娱君 浏览 5349 08-09

特朗普要重启核试验引巨大争议:因中国五年内可赶上

澎湃新闻 浏览 258 11-01

热刺遭遇穆罕默德·库杜斯新的伤病挫折

绿茵情报局 浏览 114 04-10

最新官宣!这家公募总经理换人!

券商中国 浏览 3123 08-10

三星Galaxy Z Fold7拆解:折叠屏维修难度大,可维修性仅3分

IT之家 浏览 1265 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11