关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技857人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卫星通信+第二代青海湖电池 荣耀Magic6发布 售价4399元起

网易科技 浏览 12830

约98.8万,玛莎拉蒂Grecale Folgore售价曝光

能源未来 浏览 12976

替补都很强!布歇7中7砍17分9板 施罗德13分3板4助 特伦特14分

直播吧 浏览 12866

辛巴称遭打假人敲诈,才刚复出就整这么多幺蛾子?

趣看热点 浏览 26198

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 634

孟菲斯灰熊116-110萨克拉门托国王,国王连续15年无缘季后赛

趣看热点 浏览 25613

40多岁的女人穿衣不老气,冬季搭配好这三款服装,温柔优雅显气质

Yuki时尚酱 浏览 13461

美可能供乌战斧导弹 俄方:或成俄乌局势重大升级节点

财联社 浏览 1058

华为把问界“还给”了赛力斯

华尔街见闻官方 浏览 10693

韩国女孩的会穿,不仅体现在红毯华服上

大维聊时尚 浏览 20115

今年火了一种穿搭 既简单又时髦

猫姐品衣有道 浏览 15422

61岁"老虎"倒在退休前夜 曾称"千万莫让别人戳脊梁骨"

南方都市报 浏览 75106

哈马斯高层在多哈遇袭后首次现身

政知新媒体 浏览 1648

美团发布2023年Q2财报:营收680亿元,同比增长33.4%

网易科技报道 浏览 14591

戒掉 “大锅饭”,阿里 “回头是岸”

钛媒体APP 浏览 14777

港媒:蔡英文一举杯敬酒 台商心里直打哆嗦

直新闻 浏览 81181

13年来A股最大IPO,之前IPO被终止,今年可以顺利上市?值得关注

资本百科 浏览 12415

宁波网球公开赛:袁悦2-0战胜王欣瑜,晋级女单16强

懂球帝 浏览 1003

日元,跌回1986年!

国是直通车 浏览 10798

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 6195

辽宁省委书记、省长会见来华的俄罗斯外宾 有重要背景

政知新媒体 浏览 79645
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1