HyperAIHyperAI
Back to Headlines

Liquid AI推出轻量级多模态模型LFM2-VL,4.5亿参数实现终端高效视觉理解

il y a 3 jours

Récemment, une étude menée par l’équipe de recherche d’NVIDIA a mis en lumière le potentiel considérable des petits modèles linguistiques (SLMs, Small Language Models) dans les systèmes d’agents intelligents. Ces modèles, bien plus légers que leurs homologues massifs, offrent des performances comparables à celles des grands modèles linguistiques (LLMs), tout en réduisant drastiquement les coûts computationnels et le temps de latence. L’étude souligne que la dépendance actuelle des systèmes d’agents aux LLMs pose des problèmes d’ordre économique et environnemental, tandis que les SLMs, en étant spécialisés sur des tâches précises, surpassent souvent les grands modèles dans certains contextes — tout en étant bien plus adaptés au déploiement sur des appareils terminaux comme les smartphones, les tablettes ou les dispositifs embarqués. Cette tendance s’inscrit dans un mouvement croissant : des entreprises comme Google ont récemment lancé des modèles ultra-compacts, comme Gemma 3 270M, à seulement 270 millions de paramètres, témoignant d’un intérêt croissant pour l’efficacité énergétique et la légèreté des modèles. Dans ce contexte, Liquid AI, entreprise issue du laboratoire de science informatique et d’intelligence artificielle du MIT (CSAIL), a dévoilé sa première série de modèles fondamentaux multimodaux : LFM2-VL. Conçu pour surmonter les limitations des modèles multimodaux actuels — trop volumineux pour fonctionner efficacement sur des appareils embarqués — ce modèle vise à offrir une compréhension visuelle rapide, fluide et à faible consommation d’énergie sur des dispositifs comme les montres intelligentes, les ordinateurs portables, les casques AR ou les capteurs IoT. Les poids du modèle sont désormais disponibles gratuitement sur Hugging Face, ouverts à la communauté des chercheurs et développeurs. La série LFM2-VL comprend deux variantes : LFM2-VL-450M, avec 450 millions de paramètres, conçu pour les environnements à ressources extrêmement limitées (comme les capteurs embarqués), et LFM2-VL-1.6B, à 1,6 milliard de paramètres, destiné aux smartphones haut de gamme ou aux PC équipés d’une seule carte graphique. Selon les données publiées par Liquid AI, LFM2-VL atteint une vitesse de traitement sur GPU pouvant être deux fois supérieure à celle des modèles concurrents, tout en rivalisant avec des modèles plus gros sur des benchmarks standard comme la description d’images ou les questions visuelles, tout en consommant significativement moins de mémoire. L’avantage de LFM2-VL réside dans son architecture fondamentale : elle repose sur le modèle fondamental liquide (LFM, Liquid Foundation Models), inspiré des systèmes dynamiques et de la théorie du traitement du signal. Contrairement à l’architecture Transformer classique, cette approche permet une meilleure efficacité computationnelle. Le modèle se compose de trois modules clés : un noyau linguistique dérivé de LFM2, un encodeur visuel basé sur SigLIP2 NaFlex, et un module de projection multimodale. Une innovation clé est l’intégration de la technique « pixel unshuffle », qui permet de réduire intelligemment le nombre de tokens visuels à traiter, réduisant ainsi la charge computationnelle. En outre, LFM2-VL prend en charge des entrées images natives jusqu’à 512x512 pixels, sans distorsion ni redimensionnement forcé. Pour les images plus grandes, il les découpe en tuiles non chevauchantes, tout en générant une miniature à faible résolution pour capter le contexte global — garantissant ainsi une compréhension complète à la fois fine et globale. Les développeurs peuvent ajuster dynamiquement le nombre de tuiles ou de tokens en fonction de la performance requise, sans re-entraîner le modèle. Le modèle est intégré aux bibliothèques populaires comme Hugging Face Transformers, et supporte la quantification, permettant de réduire encore davantage sa taille pour s’adapter aux contraintes matérielles des dispositifs embarqués. En matière de licence, Liquid AI propose une utilisation commerciale gratuite pour les entreprises dont le chiffre d’affaires annuel est inférieur à 10 millions de dollars. Les grandes entreprises doivent contacter l’entreprise pour obtenir une licence. Pour les agents intelligents et l’ensemble des dispositifs terminaux, des modèles comme LFM2-VL représentent une avancée décisive : ils libèrent l’intelligence artificielle du cloud pour la rendre accessible partout, en temps réel. L’ère suivante de l’IA pourrait bien être pilotée non par des géants volumineux, mais par des modèles petits, rapides et intelligents — ceux-là mêmes qui rendront l’intelligence omniprésente.

Related Links

Liquid AI推出轻量级多模态模型LFM2-VL,4.5亿参数实现终端高效视觉理解 | Gros titres | HyperAI