关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02313人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

WAIC前线|吉利携手阶跃星辰发布AI智能体与智能座舱操作系统

网易科技报道 浏览 7574 07-28

前7月在华销量不过百,极星退“市”传言再起

国际金融报 浏览 5212 08-12

博主:国安全主力出征青岛,新援张健智在列,何宇鹏伤缺

懂球帝 浏览 5426 07-21

泰国总理佩通坦遭解职 中方表态:这是泰国内政事务

界面新闻 浏览 369 08-31

黄奕女儿放弃英国留学,转向韩国练习生之路

汽车讯息热门 浏览 9409 07-22

空军用多架运-20飞机送新飞行学员报到

极目新闻 浏览 755 08-02

江苏4家银行同日被罚720万、两人禁业,南京银行收年内第4张罚单

湘财Plus 浏览 7442 07-28

深耕全民阅读落地,咪咕以数智服务拓宽书香边界

环球网资讯 浏览 87 04-22

金玟哉本场数据:6解围2抢断+传球成功率93.7%,评分8.1

直播吧 浏览 312 09-21

杨浦“V聚场”启用,UP主想要拍到上海更“里面”的内容

上观新闻 浏览 2221 07-18

中方是否愿在俄乌和平协议中提供安全保障 外交部回应

外交部网站 浏览 548 08-20

特朗普第5次给莫迪打电话莫迪终于接了:75岁生日快乐

第一财经资讯 浏览 449 09-19

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 296 10-13

英媒:利物浦后卫乔-戈麦斯恢复训练,他上月底遭遇跟腱伤势

直播吧 浏览 2463 08-14

中国色特别策划 | 故宫活力与故说新语

时尚COSMO 浏览 241 11-09

年度最嚣张女配:只给自己磨皮,却被观众偏爱

Yuki女人故事 浏览 155 11-22

加啥班啊!某车企被曝三点半,员工就陆续下班了

小李车评李建红 浏览 220 12-19

新冠感染再抬头,会持续多久?

网易健康 浏览 2856 05-17

英特尔路线图曝光:2028 年 Titan Lake CPU 放弃 P 核

IT之家 浏览 2809 07-17

喜羊羊之父,又要去IPO了

投资家 浏览 226 01-02

9系合围高端 极氪9X闯入40-50万价格带?

网易汽车 浏览 8483 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11