Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage

Dans cet article, nous visons à explorer l'impact de la transformation des données dans les apprentissages multimodaux audio-langage, un aspect qui n’a pas encore été suffisamment étudié malgré son importance. Nous examinons diverses méthodes d’augmentation non seulement au moment de l’entraînement, mais également au moment du test, et montrons que des techniques d’augmentation appropriées peuvent entraîner des améliorations significatives. Plus précisément, l’application de notre méthode proposée d’augmentation appariée audio-langage, appelée PairMix — première méthode d’augmentation multimodale spécifique au domaine audio-langage — surpasse les méthodes de référence pour les tâches de génération automatique de légendes audio ainsi que de recherche audio-texte. Afin d’exploiter pleinement les bénéfices de l’augmentation des données, nous introduisons également une augmentation au test à plusieurs niveaux (Multi-TTA). En intégrant avec succès les deux méthodes proposées et les techniques d’augmentation unimodales, nous atteignons un score de 47,5 SPIDEr sur la tâche de génération de légendes audio, soit une amélioration relative de 18,2 % par rapport au modèle de base. De même, les performances dans la tâche de recherche audio-texte sont également améliorées grâce aux méthodes proposées.