关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1114人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

问界新M7“跨年提车”送补偿、小鹏G6跌破20万年末车市进入冲刺阶段

财联社浏览 12737

华为车BU新公司“引望”正式成立注册资金10亿

网易科技报道浏览 12794

英女足国门：对英格兰队来说外界施压很正常，小伙子们能搞定

直播吧浏览 10504

精彩推荐

科比空难调查结果出炉，直升机驾驶员犯了个严重的错误

趣看热点浏览 26465

中规中矩！范弗利特全场出战42分钟 19中7贡献20分6板10助

直播吧浏览 12456

小夫妻从海南返程换3种交通工具花5000元 1天半才到家

新民晚报浏览 79843

中方敦促波黑各方缓解紧张局势

国际在线浏览 712

孙燕姿庆祝出道23周年笑称要与AI孙燕姿拼了

网易娱乐浏览 16827

深公司早报丨比亚迪前五月累计产量129万辆、顺丰控股赴港上市新进展、华侨城收监管函

21世纪经济报道浏览 11357

传奇投资人Druckenmiller再度力挺AI，称会持有英伟达两三年或更久

华尔街见闻浏览 16522

警方通报于朦胧坠亡，3位造谣者被处罚，调取监控排除刑事嫌疑

扒虾侃娱浏览 1676

小S携妈妈和3个女儿参加婚礼三姐妹穿扮成熟

页姐姐花娱浏览 18925

火箭老板宣布未来退役哈登球衣:他创造了很多回忆

网易体育浏览 26655

多多买菜回应被处罚150万元：将积极整改

中国证券报浏览 25597

中国曾经也有一家“OpenAI”

虎嗅APP 浏览 572

皇马官方：卡瓦哈尔比目鱼肌受伤

体坛周报浏览 1467

20万级新能源MPV，传祺E8能不能叫同级中的新卷王？

Autolab 浏览 13006

近2万亿债务推进出险房企提速化债

北京商报浏览 639

国内降价日本涨价，比亚迪到底是怎么盘算的？

二师兄玩车浏览 12087

媒体：自家老牌车企落后中美欧盟恐对中国车厂下手

澎湃新闻浏览 8080

放弃“模仿”，小米汽车的价值才能显现

盖世汽车浏览 10962

币圈的关键时刻来临：比特币现货ETF本周能否获批？

财联社浏览 12612

阮经天小20岁的千金女友曝光

今古深日报浏览 97

男子骑电动车跑1500公里回家:每天花1百元骑了半个月

极目新闻浏览 78968

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1