关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1113人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鲁媒:苏超决赛变成青训对决,别被所谓“草根”赛事蒙蔽双眼

懂球帝 浏览 918

又爆了一部新片,他今年太火了

独立鱼 浏览 1505

孟晚舟最近两次公开发言均与它有关 华为在下盘怎样大棋

时代周报 浏览 16551

陈绮贞回应钟成虎控诉:音乐是我们相识的最初

网易娱乐 浏览 16791

预售权益价10.69万元起 东风日产N6将上市

网易汽车 浏览 632

历史性突破!中国车市年产销首破3000万,自主品牌销量超合资,新能源狂卖886万辆

车东西 浏览 12650

前10月规模以上高技术制造业利润同比增长8.0%

北京商报 浏览 381

一文读懂保罗若被裁该去哪:最优解去湖人联手詹眉 还3队存可能性

醉卧浮生 浏览 16894

矿物加工专家陈清如院士逝世,是我国矿物加工学科的奠基者和开拓者之一

趣看热点 浏览 25384

霍建华第一次演亲密戏就遇到了关之琳,霍建华很内向不敢与关之琳沟通

趣看热点 浏览 28187

南海用武太敏感,台"海委会"自删"火箭弹开炮条款"

海峡导报社 浏览 26754

4天的沉默印证游本昌“真实人品”

娱乐圈笔娱君 浏览 773

Temu只是敲了敲亚马逊的门,抢的是Dollar店的生意

蓝鲸财经 浏览 12742

车臣军官称曾距"瓦格纳"部队数百米:准备面对各种结果

环球网资讯 浏览 88155

中国外交部要求加拿大一名驻华外交官限期离境

环球网资讯 浏览 18207

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 908

大马丁:作为国脚我已赢得一切 与历史最佳梅西共事让我很感激

直播吧 浏览 19570

疑张亮儿子塌房,留学致女同学怀孕?

观察鉴娱 浏览 373

火箭不敌公牛连跌2位到西部第10 太阳和湖人分别“躺”升1位

直播吧 浏览 12716

突发大事故!全广东打不了电话?电信回应

中国基金报 浏览 16004

中俄南非今天开启海上联演 中方参演兵力有亮点

环球网资讯 浏览 19097
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1