关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:0243人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

催收公司忽悠开锁小哥骚扰债务人家属 开锁小哥发声

极目新闻 浏览 9291 06-19

消失3年的国民男神,复出了

独立鱼 浏览 665 07-16

终于找到了我的“人生连衣裙”!(会爱超久的那种)

黎贝卡的异想世界 浏览 218 08-17

表弟给表哥装修房子甲醛超标 表哥:我要"大义灭亲"

极目新闻 浏览 118 09-19

估值超7亿的富滇银行股权拍卖,实际持股人是80后、曾是地方首富

湘财Plus 浏览 205 08-19

普京和特朗普一拍即合会面 泽连斯基被安排得明明白白

空天力量 浏览 282 08-12

塔克拉玛干沙漠,有新发现!

都市快报橙柿互动 浏览 156 09-02

苹果发完M5芯片,最开心的是M1钉子户

机器之心Pro 浏览 44 10-16

舒泰神上半年净利大跌,年内股价却暴涨近7倍!未上市罕见病新药搅动资本市场

时代周报 浏览 217 08-27

或惹恼中国 越南与美提前达成贸易协议遭本国企业质疑

澎湃新闻 浏览 2071 07-15

苹果发布会前瞻:“史上最薄”iPhone亮相

澎湃新闻 浏览 144 09-10

泰它西普治疗干燥综合征中国Ⅲ期临床研究成功入选

豹变 浏览 88 09-29

史诗级外卖大战,究竟谁亏麻了,谁赚钱了?

每日人物 浏览 3278 07-26

俄罗斯深夜不宣而战轰炸波兰使馆 波兰被打懵了

青青子衿 浏览 105 10-02

刘雨昕演唱会搞大事:衣服太贴身惊呆观众 任嘉伦当嘉宾成焦点

观察鉴娱 浏览 4848 07-13

保险股沸腾!新华保险创新高,太保、平安涨逾3%,是何原因?

国际金融报 浏览 4515 07-29

百度换人讲故事

经济观察报 浏览 6814 08-12

68岁独居老人为"干儿子"贷款85万 家中还堆满了保健品

红星新闻 浏览 9248 07-10

Hinton上海对话周伯文:多模态聊天机器人已经具有意识

量子位 浏览 3539 07-27

伊姐十一热推:电影《震耳欲聋》;电视剧《三更雪》......

伊周潮流 浏览 45 10-09

被具俊晔泪目了,大S这一次没有爱错人

手工制作阿歼 浏览 3747 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11