关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元982人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗永浩AR公司新增多个经营项目,涉及移动终端、移动通信设备等

三言科技 浏览 12286

微软公布必应聊天语言模型更新频率:每年大约3次

IT之家 浏览 17955

进军好莱坞的奢侈品巨头,扎堆拍电影?

YOKA网 浏览 12819

vivo TWS 5:一场耳机里的「音乐革命」

36氪 浏览 885

香港女星晒海外大别墅,不拍戏专注内地当网红

扒圈818 浏览 19343

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 1032

市值过万亿,金牌员工每人发500万!昔日中国首富承诺

每日经济新闻 浏览 19343

大S律师首次发声,怒斥张兰:过分到连鬼都害怕的程度!

缘木不求娱 浏览 12564

4年“伺候”4位总经理,水井坊公关一号位挂印封金

财经众议院 浏览 214

英媒:时隔15年 美国欲在英再次部署核武器

参考消息 浏览 12679

聊聊全新奥迪A6L 也许豪华行政市场要换风向了

网易汽车 浏览 1104

裙子+靴子、阔腿裤+运动鞋,今年最火的搭配!

LinkFashion 浏览 13404

郭富城随娇妻回上海,带方媛买多件珠宝太宠妻

娱絮 浏览 14851

奶茶冲泡巨头香飘飘“突围”:首家线下茶饮店将开业,曾多次试水快闪店

红星资本局 浏览 893

AI代写论文公司曾申请精英人才商标

大象新闻 浏览 1015

科隆vs汉堡:卡明斯基、侯赛因巴希奇首发,法比奥-维埃拉、洛孔加出战

懂球帝 浏览 744

马斯克扎克伯格“笼斗”升级“角斗”?意大利文化部辟谣

上游新闻 浏览 15352

拜仁26/27赛季客场球衣谍照:白色主色调,队徽内EV字样回归

懂球帝 浏览 1089

新冠病毒可物传人,青岛研究人员找到有力证据链

趣看热点 浏览 26112

路易斯破82天球荒!复出后首球,申花锁定胜局,马纳法精妙助攻

奥拜尔 浏览 973

信贷断崖式加剧紧缩!美国货币供应量连降八个月

华尔街见闻官方 浏览 14386
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1