2ヶ月前

LARP: 学習された自己回帰生成事前分布を用いたビデオのトークン化

Wang, Hanyu ; Suri, Saksham ; Ren, Yixuan ; Chen, Hao ; Shrivastava, Abhinav

要約

LARP（Local and Holistic Video Tokenizer）について紹介します。これは、自己回帰（AR）生成モデルのための現在のビデオトークン化手法の制限を克服するために設計された新しいビデオトークン化器です。従来のパッチベースのトークン化器が局所的な視覚パッチを直接離散トークンに符号化するのとは異なり、LARPは学習済みの全体的な照会を使用して視覚コンテンツから情報を収集する包括的なトークン化スキームを導入しています。この設計により、LARPは局所的なパッチレベル情報に限定されずに、より広範で意味論的な表現を捉えることができます。さらに、任意の数の離散トークンをサポートすることで柔軟性が向上し、タスク固有の要件に基づいて適応的かつ効率的なトークン化が可能になります。下流のAR生成タスクと離散トークン空間を合わせるため、LARPは訓練時に次のトークンを予測する軽量なARトランスフォーマーを事前モデルとして統合しています。訓練中に事前モデルを取り入れることで、LARPはビデオ再構築だけでなく、自己回帰生成に有利な構造を持つような潜在空間を学習します。また、このプロセスは離散トークンに順序性を与え、訓練中にそれらを最適な構成へと段階的に推進し、推論時の滑らかで正確なAR生成を確保します。包括的な実験結果は、LARPが強力な性能を持ち、UCF101クラス条件付きビデオ生成ベンチマークにおいて最先端のFVD（Fréchet Video Distance）スコアを達成していることを示しています。LARPはARモデルとビデオとの互換性を高めるとともに、高忠実度マルチモーダル大規模言語モデル（MLLMs: Multimodal Large Language Models）の一元化した構築への可能性を開きます。