关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元989人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

北京香山论坛引西方媒体高度关注 中国防长讲话被报道

环球网资讯 浏览 11846

线上社区“联洋人家”开启

上观新闻 浏览 981

巴特勒无力救主脸色铁青离场:24投28分难掩末节两分尴尬

厝边人侃体育 浏览 16834

鲁媒预测国足首发:徐新、吴曦搭档中场,张玉宁冲锋谢鹏飞登场

直播吧 浏览 12613

牛弹琴:英国"动真格"了 王子被"大义灭亲"剥夺头衔

上游新闻 浏览 11767

以方称已提交一份撤离加沙地带平民的行动计划

财联社 浏览 12299

炸了!古二再曝录音,王家卫称游本昌不是省油灯,还说唐嫣很装

娱乐圈笔娱君 浏览 767

徐正源:无法以全主力出战,又存在伤病,输球很遗憾

懂球帝 浏览 938

我和我太奶竟然用的是一个Tony

时尚COSMO 浏览 13587

乌克兰将在德国和丹麦设立武器出口办事处

上观新闻 浏览 725

阿尔特塔:我们对夏窗有清晰的规划;不会现在谈论伊万-托尼

懂球帝 浏览 12225

警惕特朗普TACO交易割韭菜

尺度商业 浏览 1043

宝马电车销量反超蔚来小鹏,到底谁在买?

极客公园 浏览 15933

德国联邦统计局数据显示:今年前8月,中国再成德最大贸易国

环球网资讯 浏览 916

170亿债券一夜清零,这个2750亿美元规模的市场吓坏了

华尔街见闻 浏览 19641

金九银十冲刺期:中国车企最新销量与目标完成率同步披露

汽车族杂志 浏览 1081

外交部:中美双方同意努力实现两国元首会晤

环球网 浏览 81763

探展2025世界制造业大会:解锁“人机共融”新图景

中国商报 浏览 1713

这几件配饰太火了,今年流行的风格都离不开它

LinkFashion 浏览 11349

初秋的第一套Look,当然是和坎肩最配

时装男士杂志 浏览 15165

马航MH370失联10周年 英媒抛新证据:机长曾迷恋两姐妹

北美省钱快报 浏览 84476
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1