HyperAIHyperAI

Command Palette

Search for a command to run...

Domestiquer l'entraînement joint multimodal pour une synthèse vidéo-à-audio de haute qualité

Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alexander Schwing Yuki Mitsufuji

Résumé

Nous proposons de synthétiser des échantillons audio de haute qualité et synchronisés, à partir d'une vidéo et éventuellement de conditions textuelles, en utilisant un nouveau cadre d'entraînement multimodal appelé MMAudio. Contrairement à l'entraînement mono-modal conditionné uniquement aux données vidéo (limitées), MMAudio est entraîné conjointement avec des données textes-audio à plus grande échelle et facilement disponibles, afin d'apprendre à générer des échantillons audio de haute qualité sémantiquement alignés. De plus, nous améliorons la synchronisation audio-visuelle grâce à un module de synchronisation conditionnelle qui aligne les conditions vidéo avec les latents audio au niveau du cadre. Entraîné avec un objectif de correspondance de flux, MMAudio atteint un nouvel état de l'art parmi les modèles publics en termes de qualité audio, d'alignement sémantique et de synchronisation audio-visuelle, tout en présentant un temps d'inférence faible (1,23 seconde pour générer une séquence de 8 secondes) et ne comptant que 157 millions de paramètres. MMAudio obtient également des performances surprenamment compétitives dans la génération texte-audio, démontrant ainsi que l'entraînement conjoint n'entrave pas les performances mono-modales. Le code source et une démonstration sont disponibles à l'adresse suivante : https://hkchengrex.github.io/MMAudio


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp