关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02312人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

前资本市场部总经理45万字披露财务造假内幕?华熙生物:内容纯属捏造,信息发布者曾骗取公司900万元

蓝鲸新闻 浏览 828 07-27

柠檬向右新品牌“向右手作”南京首店开业,引领健康茶饮消费热潮

财经无忌 浏览 4422 07-16

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 167 12-16

美股全线下挫,科技股大跌,英伟达跌超3%,黄金涨破3340美元

21世纪经济报道 浏览 486 08-21

皮尔斯:鲁尼不太适合当教练,做一名评论员会很不错

懂球帝 浏览 1107 07-17

遭美国施压 卡尼:加拿大无意与中国达成自由贸易协定

环球网资讯 浏览 230 01-28

AUDI首款战略车型上市 推动奥迪在华电动化战略加速落地

经济观察报 浏览 341 09-21

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻 浏览 193 02-02

追觅进入剃须刀市场推出首款产品“小胶囊S7 Pro”

IT之家 浏览 303 10-13

法媒:阿什拉夫等伤员会前往慕尼黑,为队友加油助威

懂球帝 浏览 55 05-06

基辅防空警报持续超5小时 一文读懂俄乌最新战况

央视新闻客户端 浏览 8906 06-08

腾讯双智能体开发平台升级亮相,已支撑多项内部业务

澎湃新闻 浏览 6180 07-27

天舟九号货运飞船组合体完成转运:携带约6吨重补给物资

IT之家 浏览 8835 07-12

卫星互联网爆发?臻镭科技上半年营收暴增七成,高管直言对未来保持乐观预期

时代周报 浏览 477 08-29

美国发生戏剧性一幕 白宫给正在过节的中国送上"大礼"

青青子衿 浏览 412 10-02

荣昌生物又一次重赏了价投信仰派

看财经show 浏览 372 09-10

欧盟官员:"特普会"是对欧盟外交地位的公开羞辱

澎湃新闻 浏览 306 10-22

全球首款搭载华为乾崑智驾的燃油车来了

网易汽车 浏览 5631 08-02

这几条裙子太适合度假了,减龄又时髦!

LinkFashion 浏览 48 05-03

虞书欣丝毫不受风波影响,掉粉60万照常活动,9月无缝进组拍新戏

萌神木木 浏览 413 08-27

巴基斯坦男子枪杀婚内出轨姐姐 母亲称"荣誉处决"无罪

中国新闻周刊 浏览 559 08-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11