HyperAIHyperAI
il y a 18 jours

Repenser le transfert et l'apprentissage auxiliaire pour améliorer le Transformer en captioning audio

{Sung Won Han, Seungjin Lee, Dongwon Kim, Jin Sob Kim, Hyun Joon Park, WooSeok Shin}
Résumé

Les performances de la génération automatique de légendes audio (AAC) ont été sensiblement améliorées grâce à l’utilisation d’un encodeur basé sur le transformer et à l’apprentissage par transfert. Toutefois, ces progrès restent limités par deux problèmes majeurs : (1) l’écart de taille des patches d’entrée entre les phases de pré-entraînement et d’ajustement fin (fine-tuning) ; (2) le manque de relations à l’échelle locale entre les entrées audio et leurs légendes correspondantes. Dans cet article, nous proposons un schéma d’apprentissage par transfert simple qui conserve la taille des patches d’entrée, contrairement aux méthodes antérieures, afin d’éviter toute incohérence d’entrée. En outre, nous introduisons une branche d’estimation de mots-clés par patch, qui exploite une méthode d’agrégation par attention pour représenter efficacement à la fois les informations globales et locales. Les résultats obtenus sur le jeu de données AudioCaps montrent que le schéma d’apprentissage et la méthode proposés contribuent de manière significative à l’amélioration des performances. Enfin, les visualisations démontrent que la méthode d’agrégation par attention proposée est particulièrement efficace pour détecter les informations locales au sein du système d’AAC.