参考指南

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

李斌被告！蔚...

华为宣布CA...

在南京高淳，...

激光雷达+8...

“小棕鞋”今...

特朗普：我1...

披着“仙侠”皮的《现代牛马生存记》

谁是《扫毒风暴》幕后最大保护伞？鸥凡是马前卒，大老虎将出场！

六旬女科学家，把公司68亿卖给一个“90后”

闭关60多天，阿里又憋出大招

阿莫林将执教曼联3年！卡拉格开炮：没人相信拉爵，这么说太过火

15.8万起，逐际动力全尺寸人形机器人LimX Oli 开放预订

美国务院宣布暂缓加沙个人访客签证发放

唐嫣这一出手，若不出意外，央视《爱情没有神话》估计得“封神”

曼城难了？上一支英超赛季前3场输2场后夺冠的是1993年的曼联

近4000人离职！NASA减员目标仍未达成

肖荣基带肖思远的照片亮相九三阅兵

当年的国王“最佳第六人”鲍比-杰克逊如今在干嘛？

西甲：皇家贝蒂斯2比0奥萨苏纳

造出国民神车五菱的柳州，为何突然没有存在感了？

米仓凉子涉毒被抓！当小三、遭家暴、交往瘾君子，50岁人生一团糟

统治力！罗诗芳卫冕全运会女子举重59公斤级金牌！

张纪中爆料不留情面，刘晓庆风流妖精形象受创

追觅汽车工厂选址德国柏林

官媒揭开70岁潘虹的真实现状，董卿说的一点没错

上半年营收同比增2.1%至14亿元一鸣食品上半年关店104家

张维伊彻底把董璇的品味暴露了，才知高云翔才是董璇的遮羞布

占比超过7成！CBA球队薪水300万+报价班巴新季外援工资帽才425万

普通人夏天就该这样穿衣！不花哨俗气、不沉闷呆板，舒适轻盈

Web3 与我们的未来：AI、RWA、稳定币……