2ヶ月前
LLaVA-Scissor: セマンティック連結成分を用いたトークン圧縮手法によるビデオLLMの改善
Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou

要約
本論文では、ビデオマルチモーダル大規模言語モデル向けに設計された学習不要のトークン圧縮戦略であるLLaVA-Scissorを提案します。従来の手法は主に注意スコアに基づいてトークンを圧縮しようと試みていますが、すべての意味領域を効果的に捉えきれておらず、しばしばトークンの冗長性につながっています。これに対して、我々はSemantic Connected Components(SCC)アプローチを活用することを提案します。このアプローチは、トークン集合内の異なる意味領域にトークンを割り当てることで、包括的な意味カバレッジを確保します。その結果として、空間と時間の両ドメインでSCCを利用する2段階の時空的トークン圧縮戦略が得られます。この戦略は、全体のビデオを非重複の意味的なトークンセットで表現することで、効果的にトークンを圧縮することができます。我々はLLaVA-Scissorのトークン圧縮能力について、ビデオ質問応答、長尺ビデオ理解、および包括的な選択肢付きベンチマークなど、多様なビデオ理解ベンチマークにおいて広範な評価を行いました。実験結果は、提案したLLaVA-Scissorが他のトークン圧縮手法よりも優れた性能を示し、特に低いトークン保持率において様々なビデオ理解ベンチマークで上位の成績を達成していることを示しています。プロジェクトページ: https://github.com/HumanMLLM/LLaVA-Scissor.