IT之家 8 月 27 日消息,面壁智能 8 月 26 日宣布开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型。
MiniCPM-V 4.5 号称高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,号称“最强端侧多模态模型”。

面壁智能介绍称,此前主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。
MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的
 
                                     
                                     
                                     
                                     
                                     
                                     
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
            