Command Palette
Search for a command to run...
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

要約
既存のオープンソース音声・映像生成手法は、効果的なクロスモーダルモデリングの欠如により、しばしば口元の同期性が損なわれ、意味的整合性も不十分となる問題を抱えている。こうした課題を軽減するため、本研究では音声と映像の同時生成を統合的に実現するフレームワーク「UniAVGen」を提案する。UniAVGenは、二重ブランチ型の共同合成アーキテクチャを基盤とし、並列に配置された2つの拡散変換器(Diffusion Transformers: DiTs)を用いて、一貫性のあるクロスモーダル潜在空間を構築している。本フレームワークの核となるのは、双方向的かつ時系列的に整合されたクロスアテンションを可能にする「非対称クロスモーダル相互作用機構」であり、これにより高精度な時空間同期性と意味的整合性を確保している。さらに、このクロスモーダル相互作用は、「顔認識を意識したモジュレーションモジュール」によって強化されており、相互作用プロセスにおいて顕著な領域を動的に優先的に扱うことができる。生成品質の向上を実現するため、推論段階での再現精度を高めるために、新たに「モダリティ認識型分類器フリー誘導(Modality-Aware Classifier-Free Guidance)」という戦略を導入した。本戦略は、クロスモーダル相関信号を明示的に強調することで、生成品質を向上させる。特に、UniAVGenの堅牢な共同合成設計により、単一モデル内で主要な音声・映像タスクをシームレスに統合可能である。具体的には、音声・映像の同時生成および継続生成、映像から音声へのダブリング、音声駆動型映像生成といったタスクを統合的に処理できる。包括的な実験結果から、従来の手法(30.1M)と比較してはるかに少ない学習サンプル数(1.3M)で、音声・映像の同期性、音色の一貫性、感情の一貫性において総合的に優れた性能を発揮することが確認された。