关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02102人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“充电桩一哥”挚达科技负债率900%,销量全球第一却连亏3年

阿尔法工场 浏览 6744 08-06

减重成功!新赛季MVP赔率:东契奇+700暂列第三 仅次于约基奇SGA

直播吧 浏览 9278 07-29

新款问界M7无伪谍照,尺寸增大,上纯电!

懂车之道 浏览 7447 07-31

90岁罗兰拄拐送别周聪,被追问好友离世感受,网友怒斥港媒没良心

萌神木木 浏览 9718 07-24

杜兰特:超巨不在于名号而在于表现 我想一直打球直到再也打不动

罗说NBA 浏览 111 10-21

女子被传遭香港人包养很有钱 被多人绑走勒索还遭强奸

极目新闻 浏览 306 08-23

从“土三轮”到“全球潮品”,这里的“三蹦子”何以“闯世界”

新华社 浏览 68 11-03

快船官宣季前赛赛程:10月10日战广州男篮 18日收官PK库里勇士

醉卧浮生 浏览 7300 08-13

仅播2集就口碑大爆,收视率破1.2,这才是国产都市剧该有的样子!

娱乐圈笔娱君 浏览 95 10-18

宁夏取消七家助贷机构涉金融事项经营资质,释放什么信号?

国际金融报 浏览 1632 07-17

高德地图做榜单:阿里到店业务再进一程,本地生活“背水一战”

红星资本局 浏览 198 09-11

22省份公布2025养老金调整方案,养老金2500元,谁涨得多?

数字财经智库 浏览 1520 07-27

Windows 10,即将“停服”

第一财经资讯 浏览 111 10-13

杨兰兰真实面貌疑似被扒正面照片流出 保镖身份不一般

火山诗话 浏览 9997 08-10

10万人开始登岛!上海最新通告:部分道路临时交通管制,出行指南发布!这座市区小岛已经变身

上观新闻 浏览 3501 08-09

首搭图灵AI芯⽚ 小鹏G7上市 19.58万起

网易汽车 浏览 8456 07-05

车企账期困局:60天承诺成空谈,供应链博弈何解?

经理人杂志 浏览 255 08-19

天津航空一客机起飞疑发出巨响 机场:系突发机械故障

极目新闻 浏览 3630 07-04

布朗:曼联能签多纳鲁马就太棒了,他比大马丁年轻&门线技术很强

直播吧 浏览 323 08-12

马蜂窝AI路书全面开放,新功能直击出境游痛点

上观新闻 浏览 9747 07-13

伊姐十一热推:电影《阿凡达:水之道》;电影《毕正明的证明》......

伊周潮流 浏览 97 10-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11