HyperAIHyperAI

Command Palette

Search for a command to run...

Repenser le transfert et l'apprentissage auxiliaire pour améliorer le Transformer en captioning audio

Sung Won Han Seungjin Lee Dongwon Kim Jin Sob Kim Hyun Joon Park WooSeok Shin

Résumé

Les performances de la génération automatique de légendes audio (AAC) ont été sensiblement améliorées grâce à l’utilisation d’un encodeur basé sur le transformer et à l’apprentissage par transfert. Toutefois, ces progrès restent limités par deux problèmes majeurs : (1) l’écart de taille des patches d’entrée entre les phases de pré-entraînement et d’ajustement fin (fine-tuning) ; (2) le manque de relations à l’échelle locale entre les entrées audio et leurs légendes correspondantes. Dans cet article, nous proposons un schéma d’apprentissage par transfert simple qui conserve la taille des patches d’entrée, contrairement aux méthodes antérieures, afin d’éviter toute incohérence d’entrée. En outre, nous introduisons une branche d’estimation de mots-clés par patch, qui exploite une méthode d’agrégation par attention pour représenter efficacement à la fois les informations globales et locales. Les résultats obtenus sur le jeu de données AudioCaps montrent que le schéma d’apprentissage et la méthode proposés contribuent de manière significative à l’amélioration des performances. Enfin, les visualisations démontrent que la méthode d’agrégation par attention proposée est particulièrement efficace pour détecter les informations locales au sein du système d’AAC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp