
要約
従来の拡散モデルを基盤とする動画生成手法は、逐次計算の制約と長時間にわたる一貫性の欠如という本質的な制限に直面しており、リアルタイムかつストリーミング形式の音声駆動型アバター合成における実用的導入を阻んでいます。本研究では、140億パラメータを有する拡散モデルを用いて、効率的かつ高精細、無限長のアバター生成を可能にする、アルゴリズムとシステムが共同設計されたフレームワーク「Live Avatar」を提案します。本手法は、複数のGPUにわたってノイズ除去ステップをパイプライン化する分散推論パラダイム「Timestep-forcing Pipeline Parallelism(TPP)」を導入し、自己回帰的ボトルネックを効果的に克服するとともに、安定的かつ低遅延のリアルタイムストリーミングを実現します。さらに、時間的一貫性の向上とアイデンティティの漂移、色のアーティファクトの低減を図るため、キャッシュされた参照画像を動的に再調整することでシーケンスの忠実度を維持する「Rolling Sink Frame Mechanism(RSFM)」を提案します。また、大規模モデルの因果的かつストリーミング可能な適応を、視覚的品質を損なうことなく実現するため、「Self-Forcing Distribution Matching Distillation」を活用しています。Live Avatarは、5台のH800 GPUを用いてエンドツーエンドで20 FPSの生成速度を達成し、本研究の知る限り、このスケールで実用的かつリアルタイム、高精細なアバター生成を実現した初のシステムです。本研究は、先進的な拡散モデルを産業用の長編動画合成アプリケーションに展開するための新たなパラダイムを確立しました。