AdaCache 高速ビデオ生成テクノロジー
AdaCache は、AI ビデオ生成を高速化するために 2024 年に Meta によって提案されたテクノロジーです。関連する論文の結果は次のとおりです。拡散トランスを使用したより高速なビデオ生成のためのアダプティブ キャッシング”。コンピューティング リソースの割り当てを最適化し、さまざまなビデオ コンテンツの複雑さに応じてコンピューティング量を動的に調整し、不必要なコンピューティング オーバーヘッドを削減します。 AdaCache は、ビデオ内のモーション情報を使用してキャッシュの決定をさらに最適化するモーション正則化戦略を導入しています。実験によれば、AdaCache はビデオ品質を維持しながら生成速度を大幅に向上させることができ、その効果はマルチ GPU 環境で顕著であり、ビデオ生成の分野で重要な応用価値と発展の見通しを持っています。
具体的には、AdaCache アプローチはトレーニングを必要とせず、推論段階でプラグ アンド プレイ コンポーネントとしてベースライン ビデオ拡散トランスフォーマーにシームレスに統合できます。このスキームの中心となるアイデアは、特定の拡散ステップで変換モジュール内の残差計算 (アテンションや多層パーセプトロン出力など) をキャッシュし、生成されたビデオに基づいてこれらのキャッシュされた結果を後続のいくつかのステップで再利用することです。研究チームは、キャッシュ計画を開発することでこれを達成しました。つまり、残差計算が実行されるたびに、次回いつ再計算するかを決定します。この決定は、以前に保存された表現と現在の表現の間の変化率を測定する距離メトリックによって導かれます。距離が大きい場合、互換性のない表現の再利用を避けるために、長時間 (つまり、数ステップ) キャッシュされません。
研究者らはさらに、生成されるビデオ内のモーション内容に基づいて計算タスクを割り当てるために、モーション正則化 (MoReg) を導入しました。これは、高度に動的なシーケンスでは、妥当な品質を達成するためにより多くの拡散ステップが必要であるという観察からインスピレーションを得ています。
全体として、このパイプラインは複数のビデオ拡散トランスベンチマークに適用され、生成品質を犠牲にすることなくより高速な推論を実証します。