Domestiquer l'entraînement joint multimodal pour une synthèse vidéo-à-audio de haute qualité

Nous proposons de synthétiser des échantillons audio de haute qualité et synchronisés, à partir d'une vidéo et éventuellement de conditions textuelles, en utilisant un nouveau cadre d'entraînement multimodal appelé MMAudio. Contrairement à l'entraînement mono-modal conditionné uniquement aux données vidéo (limitées), MMAudio est entraîné conjointement avec des données textes-audio à plus grande échelle et facilement disponibles, afin d'apprendre à générer des échantillons audio de haute qualité sémantiquement alignés. De plus, nous améliorons la synchronisation audio-visuelle grâce à un module de synchronisation conditionnelle qui aligne les conditions vidéo avec les latents audio au niveau du cadre. Entraîné avec un objectif de correspondance de flux, MMAudio atteint un nouvel état de l'art parmi les modèles publics en termes de qualité audio, d'alignement sémantique et de synchronisation audio-visuelle, tout en présentant un temps d'inférence faible (1,23 seconde pour générer une séquence de 8 secondes) et ne comptant que 157 millions de paramètres. MMAudio obtient également des performances surprenamment compétitives dans la génération texte-audio, démontrant ainsi que l'entraînement conjoint n'entrave pas les performances mono-modales. Le code source et une démonstration sont disponibles à l'adresse suivante : https://hkchengrex.github.io/MMAudio