Command Palette
Search for a command to run...
UniAVGen : Génération unifiée d'audio et de vidéo avec des interactions intermodales asymétriques
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

Résumé
En raison du manque de modélisation croisée efficace, les méthodes open source actuelles de génération audiovisuelle souffrent souvent d’un mauvais alignement labial et d’une cohérence sémantique insuffisante. Pour atténuer ces limites, nous proposons UniAVGen, un cadre unifié pour la génération conjointe audio et vidéo. UniAVGen repose sur une architecture de synthèse conjointe à deux branches, intégrant deux transformateurs de diffusion (DiTs) parallèles afin de construire un espace latent croisé cohérent. Au cœur de cette approche se trouve un mécanisme d’interaction croisée asymétrique, qui permet une attention croisée bidirectionnelle et temporellement alignée, assurant ainsi une synchronisation spatio-temporelle précise et une cohérence sémantique optimale. En outre, cette interaction croisée est renforcée par un module de modulation sensible au visage, qui priorise dynamiquement les régions les plus saillantes au cours du processus d’interaction. Pour améliorer la fidélité de la génération lors de l’inférence, nous introduisons également une guidance sans classificateur sensible au mode, une stratégie novatrice qui amplifie explicitement les signaux de corrélation croisée. Notamment, la conception robuste de synthèse conjointe de UniAVGen permet une intégration fluide de tâches clés audiovisuelles au sein d’un seul modèle, telles que la génération conjointe et la continuation audiovidéo, le doublage vidéo à partir d’un audio, ou encore la synthèse vidéo pilotée par l’audio. Des expériences approfondies montrent que, avec bien moins d’échantillons d’entraînement (1,3 million contre 30,1 millions), UniAVGen obtient des performances globales supérieures en matière de synchronisation audiovisuelle, de cohérence du timbre et de cohérence émotionnelle.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.