Command Palette
Search for a command to run...
NVILA:効率的フロンティア視覚言語モデル
NVILA:効率的フロンティア視覚言語モデル
概要
近年、視覚言語モデル(VLM)は精度面で顕著な進展を遂げている。しかし、その効率性についてはあまり注目されていない。本論文では、精度と効率の両方を最適化することを目的として設計されたオープンソースVLM「NVILA」のファミリを紹介する。VILAを基盤とし、まず空間的・時間的解像度を拡大した後、視覚トークンを圧縮するアーキテクチャの改善を施す。「スケール・トゥ・コンプレス(scale-then-compress)」アプローチにより、NVILAは高解像度画像および長時間動画を効率的に処理可能となる。また、学習・ファインチューニングからデプロイに至るまで、NVILAのライフサイクル全体にわたり効率性を高めるための体系的な検証も実施した。NVILAは、幅広い画像および動画ベンチマークにおいて、多数の先進的なオープンソースおよび商用VLMと同等またはそれ以上の精度を達成している。同時に、学習コストを4.5倍削減し、ファインチューニング時のメモリ使用量を3.4倍削減し、プレフィリング遅延を1.6~2.2倍、デコード遅延を1.2~2.8倍短縮した。今後、コードおよびモデルを公開し、再現性の促進を図る予定である。