HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-UHD:任意のアスペクト比および高解像度画像を認識可能なLMM

Ruyi Xu Yuan Yao Zonghao Guo Junbo Cui Zanlin Ni Chunjiang Ge Tat-Seng Chua Zhiyuan Liu Maosong Sun Gao Huang

概要

視覚符号化は、大規模マルチモーダルモデル(LMM)が視覚世界を理解する基盤を成す。従来のLMMは画像を固定サイズおよび限られた解像度で処理するが、近年の取り組みは柔軟性、効率性、さらには正しさの面で限界がある。本研究では、GPT-4VおよびLLaVA-1.5を代表例として選定し、それらの視覚符号化戦略に内在する系統的な欠陥を明らかにした。この課題に対処するため、任意のアスペクト比および高解像度の画像を効率的に認識できる大規模マルチモーダルモデル「LLaVA-UHD」を提案する。LLaVA-UHDは以下の3つの主要構成要素で構成される:(1)ネイティブ解像度の画像を可変サイズの小片に分割する画像モジュライゼーション戦略、(2)視覚エンコーダから出力される画像トークンをさらに圧縮する圧縮モジュール、(3)LLMに適した形で小片トークンを整理する空間スキーマ。包括的な実験により、LLaVA-UHDは、2〜3桁以上多くのデータで訓練された既存のLMMを9つのベンチマークで上回ることが示された。特に、LLaVA-1.5(336×336)を基盤とする本モデルは、推論計算量をわずか94%に抑えながら、6倍(672×1088)の高解像度画像を処理可能であり、TextVQAタスクで6.4ポイントの精度向上を達成した。さらに、学術環境下でも効率的な学習が可能であり、8台のA100 GPUで23時間(LLaVA-1.5の26時間)で学習が完了する。本研究のデータおよびコードは、https://github.com/thunlp/LLaVA-UHD にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています