HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

概要

GPT-4oを代表とするリアルタイム大規模マルチモーダルモデル(LMM)の登場により、効率的なLMMに対する関心が高まっている。一般的にLMMフレームワークは、視覚入力をビジュアルトークン(連続的表現)に符号化し、それらを大規模言語モデル(LLM)のコンテキストに統合する。この際、大規模なパラメータ数と多数のコンテキストトークン(主にビジュアルトークン)が、著しい計算負荷を引き起こす。従来の効率的LMMの研究は、常にLLMのバックボーンを小型モデルに置き換えることに注力してきたが、トークン数という重要な課題には十分に注目していなかった。本研究では、極めて少ないビジュアルトークンを用いる効率的なLMM「LLaVA-Mini」を提案する。視覚情報の保持を前提に、ビジュアルトークンの圧縮比を高めるために、まずLMMがビジュアルトークンをどのように理解しているかを分析した結果、多数のビジュアルトークンはLLMバックボーンの初期層においてのみ重要な役割を果たしており、その主な機能は視覚情報をテキストトークンに統合することであることが明らかになった。この知見をもとに、LLaVA-Miniは「モダリティ事前統合(modality pre-fusion)」を導入し、事前に視覚情報をテキストトークンに統合することで、LLMバックボーンに供給されるビジュアルトークンを1つのトークンにまで極端に圧縮することを可能にした。LLaVA-Miniは、画像、高解像度画像、動画の効率的処理を統合的にサポートする大規模マルチモーダルモデルである。11の画像ベースおよび7の動画ベースのベンチマークにおける実験結果から、LLaVA-Miniは従来のLLaVA-v1.5と比較して、576個のビジュアルトークンを1個に圧縮した状態で優れた性能を発揮することが示された。効率性分析の結果、LLaVA-MiniはFLOPsを77%削減し、40ミリ秒以内の低遅延応答を実現し、24GBのメモリを搭載するGPU上で1万フレーム以上の動画を処理可能であることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル | 記事 | HyperAI超神経