HyperAIHyperAI

Command Palette

Search for a command to run...

トークンが多すぎるとき:画像、動画、音声におけるマルチモーダル長文脈トークン圧縮の調査

Kele Shao Keda Tao Kejia Zhang Sicheng Feng Mu Cai Yuzhang Shang Haoxuan You Can Qin Yang Sui Huan Wang

概要

マルチモーダル大規模言語モデル(MLLMs)は、高解像度画像、長時間の動画シーケンス、および長く複雑な音声入力などの処理能力が向上したことにより、著しい進展を遂げています。この能力はMLLMの性能を大幅に向上させますが、多数の入力トークンに対して自己注意機構(self-attention mechanism)の二次関数的な複雑性が原因で、計算上の課題を引き起こします。これらのボトルネックを緩和するため、トークン圧縮は訓練および推論の両方において効率的にトークン数を削減できる有望で重要なアプローチとして注目されています。本論文では、マルチモーダル長文脈トークン圧縮という急速に発展する分野における、初めての体系的な調査と総合的な解説を行います。効果的な圧縮戦略が各モーダルの固有の特徴や冗長性と密接に関連していることに気づいたため、既存の手法を主に扱うデータの種類に基づいて分類し、研究者が自分の関心領域に特化した手法を迅速にアクセス・学習できるようにしています。その分類は以下の3つに分けられます。(1) 画像中心の圧縮:視覚データにおける空間的な冗長性に対処するもの。(2) 動画中心の圧縮:動的なシーケンスにおける空間時系列的な冗長性に対処するもの。(3) 音声中心の圧縮:音響信号における時間的および周波数的冗長性に対処するものです。このモーダル中心の分類に加えて、手法の背後にあるメカニズムに基づいてさらに深く分析を行い、変換に基づく(transformation-based)、類似性に基づく(similarity-based)、注意に基づく(attention-based)、およびクエリに基づく(query-based)アプローチを解説します。本調査は、体系的かつ網羅的な概観を提供することで、この急速に進化する分野における現状の進展を統合し、重要な課題を特定し、今後の研究方向を示唆することを目的としています。また、この有望な分野における最新の進展を継続的に追跡・更新するため、公開リポジトリも維持しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
トークンが多すぎるとき:画像、動画、音声におけるマルチモーダル長文脈トークン圧縮の調査 | 記事 | HyperAI超神経