关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02314人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

岚图汽车邵明峰称中国辅助驾驶已实现从追赶到并跑

IT之家 浏览 1914 07-27

大S墓碑曝光!环境布置很简陋,具俊晔太痴情

黄小仙的搞笑视频 浏览 10463 07-30

王欣瑜:对自己的表现总体感觉满意,非常感激支持我的中国球迷

懂球帝 浏览 221 01-27

2026年首月A股新开492万户,高于2025所有月份,如何看这个数据?

财联社 浏览 194 02-04

又一拟上市企业惊现体外资金池,贝特电子IPO失败之谜再追踪!

叩叩财讯 浏览 300 11-08

特朗普:即将公布各国关税信函 税率最高70%

浏览 1652 08-20

俄乌“和平计划”磋商顿巴斯成焦点

环球网资讯 浏览 219 12-13

林允儿新剧遭官媒批评!本人社媒喊话我喜欢,来中国捞金还挑衅

萌神木木 浏览 310 09-22

陈晓新剧黯然收官!口碑崩塌评论区沦陷?

萌神木木 浏览 217 12-16

舒淇最爱穿的裙子搭配,真的很适合春天!

黎贝卡的异想世界 浏览 168 02-27

宇树科技更名!正在办理工商变更,已完成首期上市辅导

红星资本局 浏览 342 10-23

上证系列指数能否为资产配置提供“坐标”?

金证研 浏览 4219 07-16

44岁前TVB花旦有望跟前未婚夫复合

探长影视解说 浏览 199 12-21

"特泽会"上 泽连斯基提需求:需要"所有"安全保障

上游新闻 浏览 463 08-20

靠“给血管做彩超”,这群“80后学霸”干出一个IPO!

野马财经 浏览 4966 07-17

650km续航 广汽埃安AION RT焕新款9月22日上市

网易汽车 浏览 376 09-17

9岁小酒窝,大大方方成顶流

时尚COSMO 浏览 271 10-08

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 219 12-02

卡塔尔就美国“20点计划”表态:仍有待澄清与协商

环球时报新闻 浏览 452 10-02

动力电池再扩产,锂电设备率先受益,骄成超声上半年利润大增,半导体布局初见成效

时代周报 浏览 481 08-27

外媒:欧洲的百年屈辱或许才刚刚开始

环球网资讯 浏览 497 09-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11