Liquid AIが4.5億パラメータの軽量多模態モデルLFM2-VLをオープンソース公開、端末での高速視覚理解を実現
人工知能企業Liquid AIは、端末デバイスで高速かつ低リソースで動作する多模態モデル「LFM2-VL」を正式にオープンソース化した。このモデルは、最小4.5億パラメータで実現する高効率な視覚理解能力が特徴で、スマートウォッチやIoT機器を含む端末環境での実用化を可能にする。同社はマサチューセッツ工科大学(MIT)のコンピュータ科学と人工知能研究所(CSAIL)から派生した研究チームを背景に、AIの端末内実行を推進している。 LFM2-VLシリーズは、4.5億パラメータの「LFM2-VL-450M」と16億パラメータの「LFM2-VL-1.6B」の2種類で構成。前者はリソース制約が厳しい環境向け、後者はスマートフォンやPCなどの高性能端末に最適化されている。実測では、GPU上で同クラスのモデルと比較して最大2倍の推論速度を達成し、画像説明や視覚質問応答(VQA)といった標準ベンチマークでも大規模モデルと同等以上の性能を発揮。メモリ使用量は大幅に削減されている。 その性能の背景には、Liquid AIが独自に開発した「液状基礎モデル(LFM)」アーキテクチャがある。これはTransformerとは異なる動的システム理論に基づく構造で、計算効率に優れる。視覚処理にはSigLIP2 NaFlexを採用し、画像入力は最大512×512ピクセルの原生解像度をサポート。超過サイズの画像は重複のない図形に分割し、低解像度の縮小画像で全体の文脈を保持することで、細部と全体の両方を正確に理解できる。 さらに「ピクセルアンシャッフル」技術を導入し、処理対象のトークン数を効率的に削減。これにより、計算負荷を軽減しながらも精度を維持。開発者は、画像のトークン数や図形サイズを調整することで、処理速度と精度のバランスを柔軟に制御可能。 LFM2-VLはHugging Face Transformersと統合され、量化技術によるモデル軽量化も可能。年間売上1000万ドル未満の企業には無料商用利用を許可。英語版の論文はarXivに掲載されており、研究コミュニティでの活用が期待される。 AIの進化は、巨大モデルの中央集権から、小規模で効率的な端末型モデルへの移行が加速している。LFM2-VLは、AIを「クラウドから端末へ」移す鍵となるモデルとして、今後のスマートデバイスやAIエージェントの実装に大きな影響を与えると見込まれている。