关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元982人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

理想商业副总裁刘杰：头部三强，我们和问界肯定在里面

观察者网浏览 11292

西方14国发布联合声明有乌克兰参与但没有美国

新民晚报浏览 6509

普里戈任空难，我大胆又谨慎地推断出一个结论

观察者网浏览 14537

精彩推荐

罗永浩AR公司新增多个经营项目，涉及移动终端、移动通信设备等

三言科技浏览 12286

微软公布必应聊天语言模型更新频率：每年大约3次

IT之家浏览 17955

进军好莱坞的奢侈品巨头，扎堆拍电影？

YOKA网浏览 12819

vivo TWS 5：一场耳机里的「音乐革命」

36氪浏览 885

香港女星晒海外大别墅，不拍戏专注内地当网红

扒圈818 浏览 19343

新机发售之际，荣耀手机影像专家言论争议不断、引翻车质疑

观察者网浏览 1032

市值过万亿，金牌员工每人发500万！昔日中国首富承诺

每日经济新闻浏览 19343

大S律师首次发声，怒斥张兰：过分到连鬼都害怕的程度！

缘木不求娱浏览 12564

4年“伺候”4位总经理，水井坊公关一号位挂印封金

财经众议院浏览 214

英媒：时隔15年美国欲在英再次部署核武器

参考消息浏览 12679

聊聊全新奥迪A6L 也许豪华行政市场要换风向了

网易汽车浏览 1104

裙子+靴子、阔腿裤+运动鞋，今年最火的搭配！

LinkFashion 浏览 13404

郭富城随娇妻回上海，带方媛买多件珠宝太宠妻

娱絮浏览 14851

奶茶冲泡巨头香飘飘“突围”：首家线下茶饮店将开业，曾多次试水快闪店

红星资本局浏览 893

AI代写论文公司曾申请精英人才商标

大象新闻浏览 1015

科隆vs汉堡：卡明斯基、侯赛因巴希奇首发，法比奥-维埃拉、洛孔加出战

懂球帝浏览 744

马斯克扎克伯格“笼斗”升级“角斗”？意大利文化部辟谣

上游新闻浏览 15352

拜仁26/27赛季客场球衣谍照：白色主色调，队徽内EV字样回归

懂球帝浏览 1089

新冠病毒可物传人，青岛研究人员找到有力证据链

趣看热点浏览 26112

路易斯破82天球荒！复出后首球，申花锁定胜局，马纳法精妙助攻

奥拜尔浏览 973

信贷断崖式加剧紧缩！美国货币供应量连降八个月

华尔街见闻官方浏览 14386

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1