HyperAIHyperAI

Command Palette

Search for a command to run...

LARP: 学習された自己回帰生成事前分布を用いたビデオのトークン化

Hanyu Wang Saksham Suri Yixuan Ren Hao Chen∗,† Abhinav Shrivastava∗

概要

LARP(Local and Holistic Video Tokenizer)について紹介します。これは、自己回帰(AR)生成モデルのための現在のビデオトークン化手法の制限を克服するために設計された新しいビデオトークン化器です。従来のパッチベースのトークン化器が局所的な視覚パッチを直接離散トークンに符号化するのとは異なり、LARPは学習済みの全体的な照会を使用して視覚コンテンツから情報を収集する包括的なトークン化スキームを導入しています。この設計により、LARPは局所的なパッチレベル情報に限定されずに、より広範で意味論的な表現を捉えることができます。さらに、任意の数の離散トークンをサポートすることで柔軟性が向上し、タスク固有の要件に基づいて適応的かつ効率的なトークン化が可能になります。下流のAR生成タスクと離散トークン空間を合わせるため、LARPは訓練時に次のトークンを予測する軽量なARトランスフォーマーを事前モデルとして統合しています。訓練中に事前モデルを取り入れることで、LARPはビデオ再構築だけでなく、自己回帰生成に有利な構造を持つような潜在空間を学習します。また、このプロセスは離散トークンに順序性を与え、訓練中にそれらを最適な構成へと段階的に推進し、推論時の滑らかで正確なAR生成を確保します。包括的な実験結果は、LARPが強力な性能を持ち、UCF101クラス条件付きビデオ生成ベンチマークにおいて最先端のFVD(Fréchet Video Distance)スコアを達成していることを示しています。LARPはARモデルとビデオとの互換性を高めるとともに、高忠実度マルチモーダル大規模言語モデル(MLLMs: Multimodal Large Language Models)の一元化した構築への可能性を開きます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています