关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02107人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄称挫败乌军空降行动

上观新闻 浏览 64 11-02

美“星舰”第十次试飞 再次叫停

新京报 浏览 265 08-26

NASA禁中国公民参与项目 专家:暴露美方焦虑心态

环球网资讯 浏览 177 09-12

阿里第一代程序员退隐江湖 核心管理层年轻化

财联社 浏览 5765 08-13

涉58亿美元出口 "欧盟制裁以色列"或难实施:德未同意

澎湃新闻 浏览 201 09-19

少林寺换方丈后无人推荐9990元高价香 数十名僧人离开

上游新闻 浏览 312 08-29

古二录音被忽略的细节!秦雯闺蜜歧视妇女,业内编剧还在嫌弃观众

萌神木木 浏览 50 11-12

官方:国米U23被分入意丙A组,完整赛程将于7月28日公布

懂球帝 浏览 664 07-26

涉嫌严重违纪违法 副厅长李俊丰任上被查

鲁中晨报 浏览 320 08-14

荣耀亲选“无线耳机鼠标二合一”新品曝光,8 月上市

IT之家 浏览 1970 07-31

好看的裙子不嫌多!这几条洋气显瘦巨百搭,谁穿谁好看!

Yuki女人故事 浏览 270 08-24

大S母亲丧女心痛,公开征人陪散步,无奈求助

报君知史 浏览 3758 07-11

伊姐周日热推:电视剧《超感迷宫》;电视剧《风与潮》......

伊周潮流 浏览 17 12-08

媒体人:王奕博为转会愿放弃编制 但若未及时获批或将缺席新赛季

直播吧 浏览 1089 08-12

机器人企业老总要200万月薪 被怒怼

每日经济新闻 浏览 2790 08-10

发现新疆戈壁"为人民服务"标语遭破坏 博主决定去修复

极目新闻 浏览 124 10-15

李在明表态:韩国站美国一边 但要妥善处理对华关系

澎湃新闻 浏览 263 09-19

泽连斯基:已着手制定具体安保方案

每日经济新闻 浏览 271 08-20

日本工业展看中国制造 电动车进入日本物流圈

看看新闻Knews 浏览 3958 07-12

《九龙城寨》后传比前传先开拍,大反派是郑伊健?郑保瑞亲口回应

最爱酷影视 浏览 217 09-08

AI引擎,价值跃迁,欧定品牌缔造出海新篇章

新周刊 浏览 323 08-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11