
要約
我々は、高忠実度の長期デジタル人間アニメーションを実現するマルチモーダル駆動型フレームワーク「Soul」を提案する。本フレームワークは、1枚のポートレート画像、テキストプロンプト、音声を入力として用い、意味的に整合性のある動画を生成することで、正確な口唇同期、豊かな表情表現、および強固なアイデンティティ保持を実現する。データ不足の問題を緩和するため、ポートレート、上半身、全身、および複数人物シーンをカバーする精密な自動アノテーションパイプラインを用いて、100万件の詳細なアノテーション付きサンプルから構成される「Soul-1M」データセットを構築した。さらに、音声およびテキストガイド付きアニメーション手法の包括的かつ公正な評価を可能にする「Soul-Bench」を慎重に構築した。モデルはWan2.2-5Bをベースとし、音声注入層を統合し、複数の訓練戦略と閾値感知型コードブック置換を組み合わせることで、長期生成の一貫性を確保している。一方で、ステップ/CFG蒸留と軽量VAEの導入により推論効率を最適化し、品質の低下をほとんど認めない状態で11.4倍の高速化を達成した。広範な実験の結果、Soulは動画品質、動画-テキスト整合性、アイデンティティ保持、口唇同期精度の面で、現在の代表的なオープンソースおよび商用モデルを大きく上回ることが示された。これにより、バーチャルアーチャー、映画制作など、実世界における多様な応用シーンへの広範な適用可能性が示された。