Maîtrise des données et des transformateurs pour la génération audio

La scalabilité des générateurs de sons ambiants est freinée par la rareté des données, la qualité insuffisante des légendes textuelles et les limites d’extension architecturale des modèles. Ce travail s’attaque à ces défis en progressant simultanément sur l’échelle des données et celle des modèles. Premièrement, nous proposons un pipeline efficace et évolutif de collecte de données spécifiquement conçu pour la génération de sons ambiants, aboutissant à AutoReCap-XL, le plus grand jeu de données audio-texte dédié aux sons ambiants, comprenant plus de 47 millions d’extraits. Pour assurer une annotation textuelle de haute qualité, nous introduisons AutoCap, un modèle automatisé de génération de légendes audio de haute qualité. En adoptant un module Q-Former et en exploitant les métadonnées audio, AutoCap améliore significativement la qualité des légendes, atteignant un score CIDEr de 83,2, soit une progression de 3,2 % par rapport aux modèles précédents. Enfin, nous proposons GenAu, une architecture évolutives de génération audio basée sur des transformeurs, dont nous avons étendu la taille jusqu’à 1,25 milliard de paramètres. Nous démontrons les bénéfices de cette approche à la fois grâce à l’augmentation des données (avec des légendes synthétiques) et à l’agrandissement de la taille du modèle. Comparé à des générateurs audio de référence entraînés à une taille et une échelle de données similaires, GenAu obtient des améliorations significatives de 4,7 % en score FAD, de 11,1 % en score IS et de 13,5 % en score CLAP. Le code source, les points de contrôle des modèles et le jeu de données sont disponibles publiquement.