6ヶ月前

マルチモーダル

ビデオ理解

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

概要

近年、視覚言語モデル（VLM）は精度面で顕著な進展を遂げている。しかし、その効率性についてはあまり注目されていない。本論文では、精度と効率の両方を最適化することを目的として設計されたオープンソースVLM「NVILA」のファミリを紹介する。VILAを基盤とし、まず空間的・時間的解像度を拡大した後、視覚トークンを圧縮するアーキテクチャの改善を施す。「スケール・トゥ・コンプレス（scale-then-compress）」アプローチにより、NVILAは高解像度画像および長時間動画を効率的に処理可能となる。また、学習・ファインチューニングからデプロイに至るまで、NVILAのライフサイクル全体にわたり効率性を高めるための体系的な検証も実施した。NVILAは、幅広い画像および動画ベンチマークにおいて、多数の先進的なオープンソースおよび商用VLMと同等またはそれ以上の精度を達成している。同時に、学習コストを4.5倍削減し、ファインチューニング時のメモリ使用量を3.4倍削減し、プレフィリング遅延を1.6～2.2倍、デコード遅延を1.2～2.8倍短縮した。今後、コードおよびモデルを公開し、再現性の促進を図る予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

ビデオ理解

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

概要

近年、視覚言語モデル（VLM）は精度面で顕著な進展を遂げている。しかし、その効率性についてはあまり注目されていない。本論文では、精度と効率の両方を最適化することを目的として設計されたオープンソースVLM「NVILA」のファミリを紹介する。VILAを基盤とし、まず空間的・時間的解像度を拡大した後、視覚トークンを圧縮するアーキテクチャの改善を施す。「スケール・トゥ・コンプレス（scale-then-compress）」アプローチにより、NVILAは高解像度画像および長時間動画を効率的に処理可能となる。また、学習・ファインチューニングからデプロイに至るまで、NVILAのライフサイクル全体にわたり効率性を高めるための体系的な検証も実施した。NVILAは、幅広い画像および動画ベンチマークにおいて、多数の先進的なオープンソースおよび商用VLMと同等またはそれ以上の精度を達成している。同時に、学習コストを4.5倍削減し、ファインチューニング時のメモリ使用量を3.4倍削減し、プレフィリング遅延を1.6～2.2倍、デコード遅延を1.2～2.8倍短縮した。今後、コードおよびモデルを公開し、再現性の促進を図る予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています