Liquid AI开源轻量级多模态模型LFM2-VL,仅4.5亿参数即可在终端设备实现高效视觉理解
近日,源自麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的初创公司 Liquid AI 正式发布其首个开源多模态基础模型系列——LFM2-VL,标志着轻量化视觉语言模型在终端设备部署方面迈出关键一步。该系列模型以仅 4.5 亿参数的 LFM2-VL-450M 和 16 亿参数的 LFM2-VL-1.6B 两款版本亮相,专为智能手机、可穿戴设备、物联网节点及边缘计算场景量身打造,实现了高效、低延迟的本地化视觉理解能力。 在当前大模型主导的背景下,英伟达等机构的研究已指出,尽管大语言模型(LLMs)在通用任务中表现优异,但其高昂的计算成本与能耗限制了在终端设备上的广泛应用。相比之下,小语言模型(SLMs)凭借更低的资源需求,在特定任务中展现出与大模型相当甚至更优的性能。这一趋势也推动了谷歌等科技巨头推出如 Gemma 3 270M 等轻量级模型。Liquid AI 正是在此背景下,推出 LFM2-VL,旨在打破多模态模型“体积大、难部署”的瓶颈。 LFM2-VL 的核心优势源于其基于“液态基础模型”(LFM)的创新架构。该架构受动态系统与信号处理理论启发,区别于传统的 Transformer 结构,在处理序列数据时具备更高的计算效率。模型由语言主干(沿用 LFM2)、视觉编码器(SigLIP2 NaFlex)以及多模态投影器三部分构成,实现视觉与语言信息的高效融合。 为提升推理速度,LFM2-VL 引入“像素解混”技术,可在不损失关键信息的前提下智能减少图像令牌数量,显著降低计算负荷。同时,它支持高达 512×512 像素的原生图像输入,避免传统模型常见的拉伸或裁剪导致的失真问题。对于更大图像,系统会将其分割为无重叠图块进行处理,并通过低分辨率缩略图保留全局上下文,兼顾细节与整体理解。 在性能测试中,LFM2-VL 在图像描述、视觉问答等主流基准上表现优异,推理速度最高可达同类模型的两倍,而内存占用大幅下降。更重要的是,该模型已与 Hugging Face Transformers 等主流开发框架无缝集成,并支持量化技术,便于在资源受限的边缘设备上部署。 在授权方面,LFM2-VL 对年收入低于 1000 万美元的公司提供免费商业使用许可,鼓励创新应用落地;大型企业则可通过官方渠道获取定制化授权。 随着 AI 从云端向终端迁移,像 LFM2-VL 这类高效、轻量、专为边缘设计的模型,正成为推动智能普及的核心力量。它们不仅降低了 AI 的使用门槛,也加速了智能设备在医疗、教育、工业等领域的深度落地。未来的智能世界,或许正是由这些“小而强”的模型所驱动。