关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02103人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴西总统卢拉访华:20小时内更新109条社交媒体动态

红星新闻 浏览 3185 05-15

居然智家公告汪林朋身故 其被留置前曾有传言要"跑路"

第一财经资讯 浏览 4776 07-29

上海一互联网企业3名高管受贿4千多万 将赃款藏出租屋

大风新闻 浏览 857 07-25

美国"不宣而战" 委内瑞拉防长发声

新京报 浏览 209 09-21

马斯克旗下脑机接口公司首次一天内完成两台手术,终极目标构建全脑接口

澎湃新闻 浏览 2625 07-22

马克龙在"香会"发言:法国是中国的朋友

环球网资讯 浏览 4827 06-01

再次抑郁风险!阿尼西莫娃未来将走向何方?

网球之家 浏览 2598 07-15

每体:巴德吉在首堂海外训练课惊艳众人,巴萨新星初露锋芒

直播吧 浏览 1719 07-27

上海发布重磅文件,事关具身智能

第一财经资讯 浏览 5100 08-06

辛纳成纳达尔后五连胜德约又一人有啥?德约还曾决赛七连杀!

网球之家 浏览 1058 07-17

44岁乒乓球名将波尔退役 曾打败过15位国乒世界冠军

扬子晚报 浏览 6217 06-17

U23亚预赛越南1-0小胜也门,三战全胜跻身正赛

懂球帝 浏览 179 09-10

外媒:特朗普对华立场逆转 允许一些芯片产品重返中国

参考消息 浏览 881 07-16

好久没对一双鞋这么心动了!

黎贝卡的异想世界 浏览 130 09-26

港股年内车企最大IPO来了!奇瑞汽车通过上市聆讯,已连续22年汽车出口量第一

时代周报 浏览 214 09-10

米体:尤文本赛季伤病减少,细致体能准备工作已初见成效

懂球帝 浏览 194 09-10

释永信有多名情人私生子 10年前曾买下澳洲18000亩地

木蹊说 浏览 6915 07-28

应县千年木塔旁每晚DJ音乐不断 居民多方投诉未获回应

红星新闻 浏览 6163 07-31

勇士不愿意!库明加经纪人本月初要价3年8200万

直播吧 浏览 9617 07-31

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 113 10-16

周鸿祎:智能体是“超级牛马” 人类未来是超级个体

网易科技报道 浏览 7819 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11