3ヶ月前
NVILA:効率的なフロンティア視覚言語モデル
Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu

要約
近年、視覚言語モデル(VLM)は精度面で著しい進展を遂げてきた。しかし、その効率性についてはほとんど注目されていない。本論文では、精度と効率の両方を最適化することを目的として設計されたオープンソースVLM「NVILA」を紹介する。VILAを基盤とし、まず空間的・時間的解像度を拡大した後、視覚トークンを圧縮するアプローチを採用した「スケール・トゥン・コンプレス(scale-then-compress)」のアーキテクチャにより、NVILAは高解像度画像および長時間動画を効率的に処理可能となっている。さらに、学習・ファインチューニングからデプロイに至るまで、NVILAのライフサイクル全体にわたる効率性を体系的に改善する調査を実施した。NVILAは、広範な画像および動画ベンチマークにおいて、多くの先進的なオープンソースおよびプロプライエタリVLMと同等またはそれ以上の精度を達成している。同時に、学習コストを4.5倍削減し、ファインチューニング時のメモリ使用量を3.4倍、プレフィル(pre-filling)の遅延を1.6~2.2倍、デコード遅延を1.2~2.8倍低減した。今後、コードおよびモデルを公開し、再現性の促進を図る予定である。