HyperAIHyperAI
il y a 2 mois

Transformateurs génératifs masqués pour la conversion vidéo-audio avec synchronicité améliorée

Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
Transformateurs génératifs masqués pour la conversion vidéo-audio avec synchronicité améliorée
Résumé

La génération vidéo-à-audio (V2A) utilise des caractéristiques visuelles de vidéos uniquement pour rendre des sons plausibles qui correspondent à la scène. Il est crucial que les débuts des sons générés coïncident avec les actions visuelles qui leur sont associées, sinon des artefacts de synchronisation non naturels apparaissent. Les travaux récents ont exploré le progrès de l'ajustement des générateurs de sons sur des images fixes puis sur des caractéristiques vidéo, en se concentrant sur la qualité et l'appariement sémantique tout en ignorant la synchronisation, ou en sacrifiant une certaine qualité pour se focaliser uniquement sur l'amélioration de la synchronisation. Dans cette étude, nous proposons un modèle génératif V2A nommé MaskVAT, qui interconnecte un codec audio général de haute qualité à bande complète avec un modèle génératif masqué séquence-à-séquence. Cette combinaison permet de modéliser simultanément une haute qualité audio, une correspondance sémantique et une synchronicité temporelle. Nos résultats montrent que, grâce à la combinaison d'un codec de haute qualité avec les caractéristiques audiovisuelles pré-entraînées appropriées et une structure parallèle séquence-à-séquence, nous sommes capables d'obtenir des résultats hautement synchronisés d'une part, tout en étant compétitifs avec l'état de l'art des modèles génératifs audio non-codec. Des exemples de vidéos et d'audios générés sont disponibles à l'adresse suivante : https://maskvat.github.io .

Transformateurs génératifs masqués pour la conversion vidéo-audio avec synchronicité améliorée | Articles de recherche récents | HyperAI