11日前

長時間動画理解のための言語リポジトリ

Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo
長時間動画理解のための言語リポジトリ
要約

大規模言語モデル(LLM)の登場により、言語はコンピュータビジョン分野において重要なモダリティとなりつつある。長文入力を扱える能力を備えているものの、入力長が増加するにつれて、長期的な情報を処理する効果は徐々に低下するという課題がある。これは特に、長時間の動画理解などの応用において顕著な問題となる。本論文では、LLM向けに「言語リポジトリ(LangRepo)」を提案する。このリポジトリは、解釈可能な(すなわちすべてテキスト形式の)構造化された情報を簡潔に保持する仕組みである。本リポジトリは、マルチスケールな動画チャンクに基づき反復的に更新される。さらに、テキスト内の冗長性を削減する「書き込み(write)」操作と、異なる時間スケールでの情報抽出を実現する「読み込み(read)」操作を導入している。提案するフレームワークは、EgoSchema、NExT-QA、IntentQA、NExT-GQAといったゼロショット視覚質問応答ベンチマークで評価され、同規模における最先端の性能を達成した。本研究のコードは、https://github.com/kkahatapitiya/LangRepo にて公開されている。

長時間動画理解のための言語リポジトリ | 最新論文 | HyperAI超神経