il y a 6 mois

Résumé

Dans cet article, nous visons à explorer l'impact de la transformation des données dans les apprentissages multimodaux audio-langage, un aspect qui n’a pas encore été suffisamment étudié malgré son importance. Nous examinons diverses méthodes d’augmentation non seulement au moment de l’entraînement, mais également au moment du test, et montrons que des techniques d’augmentation appropriées peuvent entraîner des améliorations significatives. Plus précisément, l’application de notre méthode proposée d’augmentation appariée audio-langage, appelée PairMix — première méthode d’augmentation multimodale spécifique au domaine audio-langage — surpasse les méthodes de référence pour les tâches de génération automatique de légendes audio ainsi que de recherche audio-texte. Afin d’exploiter pleinement les bénéfices de l’augmentation des données, nous introduisons également une augmentation au test à plusieurs niveaux (Multi-TTA). En intégrant avec succès les deux méthodes proposées et les techniques d’augmentation unimodales, nous atteignons un score de 47,5 SPIDEr sur la tâche de génération de légendes audio, soit une amélioration relative de 18,2 % par rapport au modèle de base. De même, les performances dans la tâche de recherche audio-texte sont également améliorées grâce aux méthodes proposées.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration des augmentations en temps d'entraînement et en temps de test pour l'apprentissage audio-langage

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters