关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02314人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曾以105.6万成交的"凶宅"再次上架 26.6万元起拍

封面新闻 浏览 224 01-07

外交部副部长孙卫东已兼任部机关党委书记

澎湃新闻 浏览 3261 06-24

换美关税减免?韩媒:韩政府拟将超千亿美元韩企对美投资当作经贸谈判筹码

环球网资讯 浏览 8654 07-25

供给侧改革会卷土重来吗?

虎嗅APP 浏览 2831 07-15

北京现代2025年上半年销量稳步回升,6月增长势头强劲

汽车有文化 浏览 4358 07-03

普京指挥俄军战略核力量综合演习

环球网资讯 浏览 277 10-23

被落石砸亡司机家属向政府索赔百万遭网暴 当事人回应

极目新闻 浏览 965 07-15

人神共愤!堂堂广州三甲医院,也能这么黑?

说财猫 浏览 4343 07-14

王思聪现身日本被偶遇,和新女伴逛街举止亲密,与懒懒恋情引猜测

扒虾侃娱 浏览 458 08-20

增程续航超1500km 全新智己LS6预售20.99万

网易汽车 浏览 474 08-17

五菱缤果S"舒屿座舱"配置公布:聚焦智能交互与舒适体验

网易汽车 浏览 409 09-05

1000亿菜鸟,海外狂奔

21财闻汇 浏览 8523 08-07

岛内学者:若赖清德无法降低两岸紧张 特朗普会不开心

海峡导报社 浏览 282 10-27

又一位香港老戏骨离世

皮皮电影 浏览 233 11-10

谷圈的冷眼,是阅文IP失温的前兆

蓝鲸新闻 浏览 450 08-22

美媒:中国近半年没买过美国一粒大豆 豆农心急如焚

CCTV4 浏览 234 10-09

众泰还魂?追觅新车实车照曝光:一比一复刻宾利添越

三言科技 浏览 223 10-18

徐正源:以饱满斗志迎接挑战 会对阵容进行调整

体坛周报 浏览 275 10-21

伊朗官员发表"微型无人机袭击特朗普"言论 特朗普回应

环球网资讯 浏览 9753 07-11

陈天桥抢先押注的脑机接口企业首次公开演示,渐冻症患者用意念操控苹果设备

上观新闻 浏览 5939 08-07

政府已持英特尔10%股份 特朗普:伟大的交易

财联社 浏览 478 08-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11