EVA-GAN : Génération améliorée de diverses audios par réseaux antagonistes génératifs évolutifs

L’arrivée des grands modèles marque une nouvelle ère dans l’apprentissage automatique, dépassant significativement les modèles plus petits grâce à l’exploitation de jeux de données massifs afin de capturer et de synthétiser des motifs complexes. Malgré ces progrès, l’exploration du dimensionnement, en particulier dans le domaine de la génération audio, reste limitée : les travaux antérieurs n’ont pas atteint le domaine haute fidélité (HiFi) à 44,1 kHz, et souffrent à la fois de discontinuités spectrales et d’flou dans le domaine des hautes fréquences, tout en manquant de robustesse face aux données hors domaine. Ces limitations restreignent l’application des modèles à des cas d’utilisation variés, notamment la génération de musique et de chant. Notre travail présente EVA-GAN (Enhanced Various Audio Generation via Scalable Generative Adversarial Networks), un modèle qui apporte des améliorations significatives par rapport aux états de l’art précédents en termes de reconstruction spectrale et des hautes fréquences, ainsi qu’en robustesse face aux données hors domaine. Il permet la génération d’audio haute fidélité en exploitant un jeu de données étendu de 36 000 heures d’audio à 44,1 kHz, un module conscient du contexte, un outil d’évaluation des artefacts basé sur une interaction humaine (Human-In-The-Loop), et en élargissant le modèle à environ 200 millions de paramètres. Des démonstrations de notre travail sont disponibles à l’adresse suivante : https://double-blind-eva-gan.cc.