关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02104人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

更大力度遏制“内卷式”竞争!专家:修订价格法正当其时

国是直通车 浏览 824 07-25

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 79 11-01

"俄罗斯院士"33亿元投资闹剧 自称花了8年删网上资料

中国新闻周刊 浏览 294 08-18

政策加速供给优化 化工行业有望迎来业绩拐点

金证研 浏览 227 09-10

去年10月缺阵至今,意媒:尤文中卫布雷默可能在两周内复出

懂球帝 浏览 8917 07-21

哈兰德:我对吕迪格一直很尊重;确实很想念贝林厄姆

懂球帝 浏览 16 12-11

泽连斯基宣布乌军队人事变动

新京报 浏览 5254 06-04

金山办公登上《财富》最受赞赏的中国公司榜单

网易科技报道 浏览 198 09-10

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 174 09-16

媒体:郑丽文当选回复大陆贺电 表述难得一见意义重大

经济观察报 浏览 117 10-21

又一车企入局增程市场

大象新闻 浏览 1724 08-06

小米YU7将于7月上市 官方承诺全力保证交付

车质网 浏览 261 06-04

特尔:热刺的队友和球迷都很好,我与俱乐部之间有共鸣

懂球帝 浏览 8965 07-25

伊姐周日热推:电视剧《依依向北风》;电视剧《水龙吟》......

伊周潮流 浏览 102 10-20

天安门广场9月1日至3日暂停开放

北京日报客户端 浏览 220 08-25

比亚迪第1300万辆新能源汽车下线

三言科技 浏览 3706 07-21

三盘大战跻身32强!WTA1000辛辛那提站:袁悦爆冷淘汰14号种子

全景体育V 浏览 6969 08-10

半年营收腰斩、净利仅剩千万,胖东来能救酒鬼酒?

征探财经 浏览 1694 07-17

省油省电省钱 风云A8新车型上市7.99万起

网易汽车 浏览 266 06-07

罗家英首谈遗产:给汪明荃买了层楼,拒绝吃软饭,不要她一分钱

温柔娱公子 浏览 336 08-12

溢价24%仍失败!必和必拓被爆出价400亿英镑被拒,英美资源坚持自身并购计划

华尔街见闻官方 浏览 28 12-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11