关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02101人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

从科技革命到AI竞争:大国崛起的关键变量

经济观察报 浏览 6186 07-12

法拉利战略转型,电动跃马如何取悦中国用户

桑之未 浏览 104 10-12

天舟九号船箭组合体转运至发射区 将于近日择机发射

我们的太空 浏览 2767 07-12

马卡:德容回归后卡萨多不太可能获得机会,但后者不会离开

懂球帝 浏览 223 08-25

短剧圈要变天了,悬疑剧《搏忆》开播爆火,原来是霍建华下海

娱乐圈笔娱君 浏览 236 08-22

罗马仕违反强制认证规定、虚假宣传 被罚没124万

南方都市报 浏览 5 12-15

记者:詹姆斯复出后将湖人的快攻水平从倒数后5提升到正数前5

懂球帝 浏览 31 11-27

赵文卓才是真·人间清醒吧

小光侃娱乐 浏览 224 09-01

比亚迪被打倒,是中国汽车最大悲哀!王传福三次哽咽

象视汽车 浏览 257 06-14

A股股民突破2.4亿,00后加快进场会改变他们的财富命运吗?

郭施亮 浏览 592 07-17

美网女单资格赛首轮:王曦雨2-1逆转布兰斯汀晋级

懂球帝 浏览 258 08-19

火箭飞行试验任务失利 蓝箭航天致歉

界面新闻 浏览 306 08-16

记者:切尔西拒绝被当做工具给球员抬价,无意参与伊萨克竞价

直播吧 浏览 8203 07-25

麒麟信安与智慧眼达成战略合作 共推AI+操作系统融合应用

财闻 浏览 121 10-14

需求激增 流感药“新老对决”

北京商报 浏览 35 11-25

Sora 2和同名视频App问世,欲角逐短视频社交“新王”

DeepTech深科技 浏览 132 10-02

告别0操作!勇士今夏首笔引援:签2023年落选秀金西 曾效力爵士

醉卧浮生 浏览 233 08-25

人工智能激发云计算订单释放 相关基金重仓股大幅异动

证券时报 浏览 184 09-11

热搜第一!惹恼中产的山姆该如何破局?

互联网那些事 浏览 1025 07-17

这件衣服才是今年夏天的“顶流”,时髦又减龄!

LinkFashion 浏览 8766 07-31

纯电小型SUV还有激光雷达 长安启源Q05预计售11-13万

网易汽车 浏览 2045 08-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11