HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 19 jours

UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques

Résumé

En raison du manque de modélisation croisée efficace, les méthodes open source actuelles de génération audiovisuelle souffrent souvent d’un mauvais alignement labial et d’une cohérence sémantique insuffisante. Pour atténuer ces limites, nous proposons UniAVGen, un cadre unifié pour la génération conjointe audio et vidéo. UniAVGen repose sur une architecture de synthèse conjointe à deux branches, intégrant deux transformateurs de diffusion (DiTs) parallèles afin de construire un espace latent croisé cohérent. Au cœur de cette approche se trouve un mécanisme d’interaction croisée asymétrique, qui permet une attention croisée bidirectionnelle et temporellement alignée, assurant ainsi une synchronisation spatio-temporelle précise et une cohérence sémantique optimale. En outre, cette interaction croisée est renforcée par un module de modulation sensible au visage, qui priorise dynamiquement les régions les plus saillantes au cours du processus d’interaction. Pour améliorer la fidélité de la génération lors de l’inférence, nous introduisons également une guidance sans classificateur sensible au mode, une stratégie novatrice qui amplifie explicitement les signaux de corrélation croisée. Notamment, la conception robuste de synthèse conjointe de UniAVGen permet une intégration fluide de tâches clés audiovisuelles au sein d’un seul modèle, telles que la génération conjointe et la continuation audiovidéo, le doublage vidéo à partir d’un audio, ou encore la synthèse vidéo pilotée par l’audio. Des expériences approfondies montrent que, avec bien moins d’échantillons d’entraînement (1,3 million contre 30,1 millions), UniAVGen obtient des performances globales supérieures en matière de synchronisation audiovisuelle, de cohérence du timbre et de cohérence émotionnelle.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques | Articles de recherche | HyperAI