Command Palette
Search for a command to run...
Kling-Avatar:段階的長時間アバターアニメーション合成のためのマルチモーダル指示の基盤化
Kling-Avatar:段階的長時間アバターアニメーション合成のためのマルチモーダル指示の基盤化
概要
音声駆動型アバター動画生成の最近の進展により、音声視覚的なリアリズムが著しく向上している。しかし、従来の手法は、指示(インストラクション)の条件付けを、音声または視覚的特徴に基づく低レベルの追跡として扱うにとどまっており、指示によって伝えられるコミュニケーション的意図をモデル化していない。この制限は、物語の整合性やキャラクターの表現力に悪影響を及ぼす。このギャップを埋めるために、本研究では、マルチモーダルな指示理解と写実的なポートレート生成を統合する新しい段階的フレームワーク「Kling-Avatar」を提案する。本手法は二段階パイプラインを採用する。第一段階では、多様な指示信号を条件として、キャラクターの動きや感情といった高レベルな意味情報を制御する「青写真動画(blueprint video)」を生成するマルチモーダル大規模言語モデル(MLLM)ディレクターを設計する。第二段階では、この青写真のキーフレームをもとに、最初と最後のフレームを戦略的に用いる手法により、複数のサブクリップを並列で生成する。このグローバルからローカルへと処理する枠組みは、細部の忠実な再現を維持しつつ、マルチモーダルな指示に内在する高レベルな意図を正確に反映する。また、並列構造により、長時間の動画を高速かつ安定して生成可能であり、デジタルヒューマンのライブ配信やバーチャル・ブロガー(vlogging)など、実世界の応用に適している。本手法の包括的な評価のため、多様な指示と挑戦的なシナリオをカバーする375サンプルから構成されるベンチマークを構築した。広範な実験の結果、Kling-Avatarは最大1080p、48fpsで鮮明で滑らかな長時間動画を生成可能であり、口唇同期の正確性、感情表現および動的表現力、指示制御性、アイデンティティ保持、クロスドメイン一般化性能において優れた性能を達成した。これらの結果から、Kling-Avatarは意味的根拠に基づき、高忠実度な音声駆動型アバター合成の新たな基準として確立された。