il y a 3 mois

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

En raison du manque de modélisation croisée efficace, les méthodes open source actuelles de génération audiovisuelle souffrent souvent d’un mauvais alignement labial et d’une cohérence sémantique insuffisante. Pour atténuer ces limites, nous proposons UniAVGen, un cadre unifié pour la génération conjointe audio et vidéo. UniAVGen repose sur une architecture de synthèse conjointe à deux branches, intégrant deux transformateurs de diffusion (DiTs) parallèles afin de construire un espace latent croisé cohérent. Au cœur de cette approche se trouve un mécanisme d’interaction croisée asymétrique, qui permet une attention croisée bidirectionnelle et temporellement alignée, assurant ainsi une synchronisation spatio-temporelle précise et une cohérence sémantique optimale. En outre, cette interaction croisée est renforcée par un module de modulation sensible au visage, qui priorise dynamiquement les régions les plus saillantes au cours du processus d’interaction. Pour améliorer la fidélité de la génération lors de l’inférence, nous introduisons également une guidance sans classificateur sensible au mode, une stratégie novatrice qui amplifie explicitement les signaux de corrélation croisée. Notamment, la conception robuste de synthèse conjointe de UniAVGen permet une intégration fluide de tâches clés audiovisuelles au sein d’un seul modèle, telles que la génération conjointe et la continuation audiovidéo, le doublage vidéo à partir d’un audio, ou encore la synthèse vidéo pilotée par l’audio. Des expériences approfondies montrent que, avec bien moins d’échantillons d’entraînement (1,3 million contre 30,1 millions), UniAVGen obtient des performances globales supérieures en matière de synchronisation audiovisuelle, de cohérence du timbre et de cohérence émotionnelle.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters