HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

Dans cet article, nous visons à explorer l'impact de la transformation des données dans les apprentissages multimodaux audio-langage, un aspect qui n’a pas encore été suffisamment étudié malgré son importance. Nous examinons diverses méthodes d’augmentation non seulement au moment de l’entraînement, mais également au moment du test, et montrons que des techniques d’augmentation appropriées peuvent entraîner des améliorations significatives. Plus précisément, l’application de notre méthode proposée d’augmentation appariée audio-langage, appelée PairMix — première méthode d’augmentation multimodale spécifique au domaine audio-langage — surpasse les méthodes de référence pour les tâches de génération automatique de légendes audio ainsi que de recherche audio-texte. Afin d’exploiter pleinement les bénéfices de l’augmentation des données, nous introduisons également une augmentation au test à plusieurs niveaux (Multi-TTA). En intégrant avec succès les deux méthodes proposées et les techniques d’augmentation unimodales, nous atteignons un score de 47,5 SPIDEr sur la tâche de génération de légendes audio, soit une amélioration relative de 18,2 % par rapport au modèle de base. De même, les performances dans la tâche de recherche audio-texte sont également améliorées grâce aux méthodes proposées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage | Articles | HyperAI