关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02302人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普铺红毯迎接普京 B-2轰炸机头顶飞过

新华社 浏览 438 08-17

日本一股势力为战争罪犯翻案招魂 外交部回应

人民日报 浏览 261 08-29

“充电桩一哥”挚达科技负债率900%,销量全球第一却连亏3年

阿尔法工场 浏览 6938 08-06

王健林“限高”已取消,万达知情人士最新回应

红星资本局 浏览 374 09-29

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 235 12-19

新版《盗墓笔记》衍生剧来袭,张新成丁禹兮联手,单集成本1500万

最爱酷影视 浏览 435 08-21

早报|微信员工回应「朋友圈带图评论占内存」/小米 AI 眼镜狂卖 8 万副/玛莎拉蒂新车卖三十几万,门店回应:真的

爱范儿 浏览 4790 07-12

结束4年枪手生涯❗️阿森纳官方:洛孔加永久转会汉堡 费用暂未知

直播吧 浏览 387 09-02

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 237 01-13

五哈全员为宝石老舅送祝福

小海娱计 浏览 2191 07-22

罕见联合演练指挥导调现场公布:画面多处打码

环球网资讯 浏览 1155 08-03

3款合资燃油中大型SUV降价卖,油车党有福了

优视汽车 浏览 450 05-17

寻根!帕尔默探访祖父出生地加勒比圣基茨岛,受到英雄般的欢迎

直播吧 浏览 1378 07-16

马克龙宣布将正式承认巴勒斯坦国 鲁比奥:美强烈反对

扬子晚报 浏览 10832 07-26

美国律师协会起诉特朗普政府

浏览 8851 08-20

集采倒逼传统药企转型,多家企业创新药收入贡献过半

第一财经资讯 浏览 446 08-26

俄罗斯考虑放弃唯一现役航母:修了8年没修好 或拆解

红星新闻 浏览 8857 07-12

近半年“主观VS量化”!但斌、吴悦风位列前5!翰荣、念觉领衔

私募排排网 浏览 282 10-29

蚂蚁集团开发的超级机器人大脑:让机器人像人一样学会做任何事

科技行者 浏览 202 01-29

卡萨诺:给阿囧小因扎吉之前的阵容,他会带领国米拿到四连冠

懂球帝 浏览 352 09-21

千亿公募换帅!能否打破“债强股弱”局面?

国际金融报 浏览 2988 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11