HyperAI超神経

MuseTalk 高品質リップシンクモデルデモ

MuseTalk  これは、Tencent Music Tianqin Lab によって開発された、リアルタイムの高品質オーディオ主導型リップシンク モデルです。入力されたオーディオに基づいて、目に見えない顔の画像を変更することができます。音声と高度に同期し、口の形と声を一致させます。 MuseTalk は、完全なバーチャル ヒューマン ソリューションとして、MuseV によって生成されたビデオなどの入力ビデオに適用できます。 NVIDIA Tesla V100 では 30fps+ でリアルタイム推論を実行できます。

MuseTalk の機能は次のとおりです。

  • リアルタイム: リアルタイム環境で実行でき、1 秒あたり 30 フレームを超える処理速度に達し、リップシンクの滑らかさを保証します。
  • 高品質な同期:潜在空間修復手法により、顔の特徴を維持しながら、入力音声に合わせて口の形状を調整し、高品質なリップシンクを実現します。
  • MuseV と連携: MuseTalk は、バーチャル ヒューマン ビデオを生成できるビデオ生成フレームワークである MuseV モデルで使用できます。
  • オープンソース: MuseTalk のコードは、コミュニティへの貢献とさらなる開発を促進するためにオープンソースになっています。

MuseTalk はリップシンク生成に優れており、正確で一貫したリップシンクを生成でき、特に実写ビデオの生成に優れています。 EMO、AniPortrait、Vlogger、Microsoft の VASA-1 などの他の製品と比較した場合にも利点があります。


エフェクト例

モデルフレームワーク



MuseTalk  トレーニングは、フリーズされた VAE によって画像がエンコードされる潜在空間で実行されます。オーディオは、凍結されたささやき声の小さなモデルによってエンコードされます。生成ネットワークのアーキテクチャは、stable-diffusion-v1-4 の UNet から借用されており、クロスアテンションを通じてオーディオの埋め込みが画像の埋め込みと融合されます。

ステップの実行


1. プロジェクトの右上隅にある「クローン」をクリックし、「次へ」をクリックして次の手順を完了します: 基本情報 > 計算能力の選択 > レビューおよびその他の手順。最後に、「続行」をクリックして、個人コンテナでプロジェクトを開きます。
2. リソースの割り当てが完了したら、API アドレスを直接コピーし、任意の URL に貼り付けます (実名認証が必要であり、この手順でワークスペースを開く必要はありません)。
3. 合成用のオーディオ ファイルとビデオ ファイルをアップロードします

テスト済み: 17 秒の音声ファイルを生成するには約 3 分、約 1 分の音声ファイルを生成するには約 6 分かかります。

-|MuseTalk  顔と口の形状は入力音声に応じて変更でき、顔領域のサイズは 256 x 256 が望ましいです。同時に MuseTalk  顔領域の中心点の提案を変更することもサポートされており、生成された結果に大きな影響を与えます。

-|現在 MuseTalk  中国語、英語、日本語など多言語の音声入力に対応。

-|最終的に生成されるビデオの長さは、オーディオの長さの影響を受けるものとします。