HyperAIHyperAI
il y a 17 jours

VLN-PETL : Apprentissage par transfert efficace en paramètres pour la navigation vision-langage

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL : Apprentissage par transfert efficace en paramètres pour la navigation vision-langage
Résumé

Les performances des tâches de navigation visuelle-et-linguistique (Vision-and-Language Navigation, VLN) ont connu une progression rapide récemment, grâce à l’utilisation de modèles pré-entraînés à grande échelle en vision et langage. Toutefois, le fine-tuning complet de ces modèles pré-entraînés pour chaque tâche VLN descendante devient de plus en plus coûteux en raison de la taille considérable des modèles. Le domaine de recherche récent portant sur l’apprentissage par transfert à faible coût en paramètres (Parameter-Efficient Transfer Learning, PETL) montre un potentiel prometteur pour ajuster efficacement les grands modèles pré-entraînés dans des tâches courantes de vision par ordinateur (CV) et de traitement du langage naturel (NLP), en exploitant la majeure partie des connaissances représentationnelles intégrées dans le modèle pré-entraîné tout en ne mettant à jour qu’un ensemble minimal de paramètres. Toutefois, l’application directe des méthodes PETL existantes aux tâches VLN, plus exigeantes, peut entraîner une dégradation non négligeable des performances. Par conséquent, nous présentons la première étude explorant l’application des méthodes PETL aux tâches VLN, et proposons une méthode PETL spécifique à la VLN, nommée VLN-PETL. Plus précisément, nous concevons deux modules PETL : le Historical Interaction Booster (HIB) et le Cross-modal Interaction Booster (CIB). Ensuite, nous combinons ces deux modules avec plusieurs méthodes PETL existantes pour former une architecture intégrée, VLN-PETL. Des résultats expérimentaux étendus sur quatre tâches VLN majeures (R2R, REVERIE, NDH, RxR) démontrent l’efficacité de notre approche, où VLN-PETL atteint des performances comparables, voire supérieures, au fine-tuning complet, tout en surpassant significativement les autres méthodes PETL.

VLN-PETL : Apprentissage par transfert efficace en paramètres pour la navigation vision-langage | Articles de recherche récents | HyperAI