Liquid AI推出轻量级多模态模型LFM2-VL,4.5亿参数实现终端高效视觉理解
Liquid AI近日推出其首个多模态基础模型系列LFM2-VL,标志着轻量化视觉语言模型在终端设备部署上的重要突破。该系列模型仅需4.5亿参数即可在智能手机、可穿戴设备及物联网节点等资源受限场景中实现高效视觉理解,显著降低对云端算力的依赖。其核心目标是解决当前多模态AI模型因参数量庞大、推理延迟高、内存占用大而难以在边缘设备落地的瓶颈问题。LFM2-VL系列包含两款模型:LFM2-VL-450M(4.5亿参数)专为智能手表等极低功耗设备设计,而LFM2-VL-1.6B(16亿参数)则面向高端移动设备与个人电脑,兼顾性能与效率。 模型性能方面,LFM2-VL在GPU上的推理速度达到同类视觉语言模型的两倍,且在图像描述、视觉问答等主流基准测试中表现媲美甚至超越参数量更大的模型,同时内存占用大幅下降。其高效性源于独特的液态基础模型(LFM)架构,该架构基于动态系统与信号处理理论,与传统Transformer在序列建模方式上存在本质差异,具备天然的计算效率优势。模型由语言主干(基于LFM2)、视觉编码器(SigLIP2 NaFlex)和多模态投影器构成,支持原生512×512像素输入,避免图像拉伸或裁剪导致的失真。对于更高分辨率图像,模型采用无重叠图块分割策略,并结合低分辨率缩略图捕捉全局上下文,实现细节与整体理解的平衡。 关键技术“像素解混”(pixel unshuffle)可智能减少图像令牌数量,显著降低计算负载。开发者可在不重新训练的前提下,动态调节图块数量与令牌密度,灵活权衡处理速度与精度。LFM2-VL已集成至Hugging Face Transformers生态,并支持量化技术,进一步压缩模型体积以适配边缘硬件。在授权模式上,年收入低于1000万美元的企业可免费商用,大型企业需申请商业许可,体现了对开源社区与产业落地的双重支持。 业内专家认为,LFM2-VL的发布顺应了AI向端侧迁移的大趋势。随着AI Agent系统对实时性与隐私保护要求提升,小而精的模型正成为关键基础设施。Liquid AI由MIT CSAIL孵化,其技术路径展示了非Transformer架构在效率优化上的潜力。相比谷歌Gemma 3 270M等同类产品,LFM2-VL在多模态任务中展现出更强的综合性能与部署灵活性。未来,这类轻量化模型有望推动AI在医疗可穿戴、自动驾驶感知、智能家居等场景的深度普及,真正实现“智能无处不在”。