OmniTokenizer:視覚生成のための統合型画像・動画トークナイザー

トーカナイザーは、複雑な視覚データをコンパクトな潜在空間にマッピングする翻訳者として機能し、視覚生成モデルの核となる。既存のトーカナイザーが画像または動画入力に特化しているという知見に基づき、本論文では、画像と動画の統合的なトーカナイズを実現するTransformerベースのトーカナイザー「OmniTokenizer」を提案する。OmniTokenizerは、空間的および時間的モデリングを別々に処理する空間-時間分離アーキテクチャを採用しており、空間モデリングにはウィンドウアテンション、時間モデリングには因果アテンション(causal attention)を統合している。画像と動画データの相補的な性質を活かすために、さらに段階的学習戦略を提案する。まず、固定解像度の画像データ上でOmniTokenizerを初期学習し、空間表現能力を獲得した後、複数の解像度における画像および動画データを統合的に学習させることで、時間的ダイナミクスを学習する。OmniTokenizerは、初めて統一されたフレームワーク内で画像と動画の両方の入力を処理し、それらの協調効果(synergy)の実現可能性を示した。広範な実験により、OmniTokenizerはさまざまな画像および動画データセットにおいて最先端(SOTA)の再構成性能を達成しており、例えばImageNetでは1.11の再構成FID、UCF-101では42の再構成FVDを達成し、従来のSOTA手法をそれぞれ13%、26%上回った。さらに、OmniTokenizerを組み込むことで、言語モデルベースのアプローチおよび拡散モデル(diffusion models)の両方が高度な視覚合成性能を実現できることも示した。これにより、本手法の優位性と汎用性が裏付けられた。コードは https://github.com/FoundationVision/OmniTokenizer にて公開されている。