关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:0239人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国23岁枪手写下"杀死特朗普" 然后朝小学生们开枪了

澎湃新闻 浏览 192 08-29

标配激光雷达和四驱 魏牌高山7上市售28.58万

网易汽车 浏览 44 10-17

长城魏建军:0公里二手车,坑了新车坑旧车!

淘车岛胡帅 浏览 207 06-02

72年来首次 中国"最神秘军校"招录本科女学员

上观新闻 浏览 6436 07-26

子女不是985不值得关怀?兴业证券撞上“反内卷”枪口

深蓝财经 浏览 9807 07-30

老铺黄金价格突然暴涨 调价前上海等多店排队数小时抢

新民晚报 浏览 192 08-27

恐怖作战分子被编入叙利亚政府军 中方对此表示关切

界面新闻 浏览 6454 06-06

鲁本-迪亚斯:我不在乎其他队的心理游戏,我只关心我们自己

懂球帝 浏览 111 09-21

WAIC前线|傅利叶带来 GR-3 新品首秀 开启具身智能康养新概念

网易科技报道 浏览 8877 07-27

24岁王源的身份焦虑:撕不掉的TFBOYS标签,走不出的偶像困局

Yuki女人故事 浏览 122 09-09

49岁李小冉爆丁克原因,现任娶她花了5亿?

银河卧谈会 浏览 3080 07-09

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 107 09-19

这件衣服才是早秋的“顶流”,优雅气质全靠它!

LinkFashion 浏览 4899 08-14

上汽通用五菱与华为深化合作 首款车宝骏华境S亮相

网易汽车 浏览 153 09-08

安徽人买车,为什么爱上苏A牌照?

无相商业趋势 浏览 213 08-20

大学生找公司代写论文反被索要"封口费" 警方回应

上游新闻 浏览 5444 06-19

余杭自来水事件惊天反转!上市公司硬刚:谁传谣,告到倾家荡产!

诗与星空 浏览 9964 07-21

美媒:无人机竞赛美不光落后中国 甚至还比不上乌克兰

澎湃新闻 浏览 146 09-17

张靓颖跳网红舞,自我放飞?还是讨好下沉市场?

策略剖析 浏览 1177 07-16

27岁女游客疑被蛇咬伤身亡

网易健康 浏览 8765 06-10

联合国报告:仅35%的可持续发展目标细项进展顺利

浏览 63746 09-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11