关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02302人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

iPhone Air国行版要来了！联通eSIM预约通道正式开放

三言科技浏览 255 10-13

李想回应“再撞乘龙卡车”

电动知家浏览 465 08-19

杭州一公园白鹤＂大战＂无人机现场市民看得心惊肉跳

都市快报橙柿互动浏览 163 12-24

精彩推荐

特朗普铺红毯迎接普京 B-2轰炸机头顶飞过

新华社浏览 438 08-17

日本一股势力为战争罪犯翻案招魂外交部回应

人民日报浏览 261 08-29

“充电桩一哥”挚达科技负债率900%，销量全球第一却连亏3年

阿尔法工场浏览 6938 08-06

王健林“限高”已取消，万达知情人士最新回应

红星资本局浏览 374 09-29

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻浏览 235 12-19

新版《盗墓笔记》衍生剧来袭，张新成丁禹兮联手，单集成本1500万

最爱酷影视浏览 435 08-21

早报｜微信员工回应「朋友圈带图评论占内存」/小米 AI 眼镜狂卖 8 万副/玛莎拉蒂新车卖三十几万，门店回应：真的

爱范儿浏览 4790 07-12

结束4年枪手生涯❗️阿森纳官方：洛孔加永久转会汉堡费用暂未知

直播吧浏览 387 09-02

黎智英等9名被告人一连4日进行求情香港大量警员戒备

扬子晚报浏览 237 01-13

五哈全员为宝石老舅送祝福

小海娱计浏览 2191 07-22

罕见联合演练指挥导调现场公布：画面多处打码

环球网资讯浏览 1155 08-03

3款合资燃油中大型SUV降价卖，油车党有福了

优视汽车浏览 450 05-17

寻根！帕尔默探访祖父出生地加勒比圣基茨岛，受到英雄般的欢迎

直播吧浏览 1378 07-16

马克龙宣布将正式承认巴勒斯坦国鲁比奥：美强烈反对

扬子晚报浏览 10832 07-26

美国律师协会起诉特朗普政府

浏览 8851 08-20

集采倒逼传统药企转型，多家企业创新药收入贡献过半

第一财经资讯浏览 446 08-26

俄罗斯考虑放弃唯一现役航母：修了8年没修好或拆解

红星新闻浏览 8857 07-12

近半年“主观VS量化”！但斌、吴悦风位列前5！翰荣、念觉领衔

私募排排网浏览 282 10-29

蚂蚁集团开发的超级机器人大脑：让机器人像人一样学会做任何事

科技行者浏览 202 01-29

卡萨诺：给阿囧小因扎吉之前的阵容，他会带领国米拿到四连冠

懂球帝浏览 352 09-21

千亿公募换帅！能否打破“债强股弱”局面？

国际金融报浏览 2988 07-17

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11