Command Palette
Search for a command to run...
Compression du modèle LXMERT pour la réponse aux questions visuelles
Compression du modèle LXMERT pour la réponse aux questions visuelles
Maryam Hashemi Ghazaleh Mahmoudi Sara Kodeiri Hadi Sheikhi Sauleh Eetemadi
Résumé
Les modèles pré-entraînés à grande échelle tels que LXMERT gagnent en popularité pour l’apprentissage de représentations croisées entre texte et image dans le cadre de tâches vision-langage. Selon l’hypothèse du ticket de loterie, les modèles de traitement du langage naturel (NLP) et de vision par ordinateur contiennent des sous-réseaux plus petits capables d’être entraînés de manière isolée jusqu’à atteindre des performances optimales. Dans ce travail, nous combinons ces observations afin d’évaluer l’existence de tels sous-réseaux entraînables dans LXMERT lorsqu’il est finement ajusté sur la tâche de VQA. Par ailleurs, nous menons une analyse coût-bénéfice en fonction de la taille du modèle en étudiant jusqu’où l’on peut procéder à une élagage (pruning) sans perte significative de précision. Nos résultats expérimentaux montrent qu’il est possible de réduire efficacement la taille de LXMERT de 40 % à 60 % tout en n’acceptant qu’une perte de précision de 3 %.