Back to Headlines

Liquid AI开源LFM2-VL:仅需4.5亿参数,终端设备实现高效视觉理解

3 天前

由麻省理工学院(MIT)CSAIL实验室孵化的人工智能公司Liquid AI近日正式开源其首个视觉-语言基础模型系列LFM2-VL,旨在解决多模态AI模型因体积庞大而难以在终端设备部署的难题。该系列模型仅需最低4.5亿参数,即可在智能手机、可穿戴设备、物联网节点等资源受限的边缘设备上实现高效、低延迟的视觉理解能力。 LFM2-VL系列包含两款模型:LFM2-VL-450M(4.5亿参数)专为智能手表等极低算力设备设计,而LFM2-VL-1.6B(16亿参数)则适用于高端移动设备和PC端,兼顾性能与效率。根据官方测试,该模型在GPU上的推理速度可达同类视觉语言模型的两倍,且在图像描述、视觉问答等主流基准测试中表现媲美甚至超越参数量更大的模型,同时内存占用显著降低。 其性能优势源于独特的液态基础模型(LFM)架构,该架构基于动态系统与信号处理理论,与传统Transformer在处理序列数据的方式上截然不同,具备天然的计算效率优势。LFM2-VL由语言主干(基于LFM2)、视觉编码器(SigLIP2 NaFlex)和多模态投影器三部分构成。为提升效率,模型引入“像素解混”技术,可智能减少图像令牌数量,降低计算负担。同时,支持原生512×512像素输入,避免图像拉伸或裁剪带来的失真。对于大尺寸图像,模型采用无重叠图块分割处理,并辅以低分辨率缩略图提供全局上下文,兼顾细节与整体理解。 开发者可动态调整图像令牌和图块数量,在速度与精度间灵活权衡,无需重新训练。LFM2-VL已与Hugging Face Transformers等主流框架集成,并支持量化技术,进一步压缩模型体积以适配边缘硬件。 在许可方面,年收入低于1000万美元的公司可免费商用,大型企业需联系获取授权。随着AI向端侧演进,LFM2-VL这类轻量、高效、专为终端优化的模型,正成为推动智能无处不在的关键力量,标志着AI从云端走向设备的又一重要进展。

Related Links