Compression du modèle LXMERT pour la réponse aux questions visuelles

Les modèles pré-entraînés à grande échelle tels que LXMERT gagnent en popularité pour l’apprentissage de représentations croisées entre texte et image dans le cadre de tâches vision-langage. Selon l’hypothèse du ticket de loterie, les modèles de traitement du langage naturel (NLP) et de vision par ordinateur contiennent des sous-réseaux plus petits capables d’être entraînés de manière isolée jusqu’à atteindre des performances optimales. Dans ce travail, nous combinons ces observations afin d’évaluer l’existence de tels sous-réseaux entraînables dans LXMERT lorsqu’il est finement ajusté sur la tâche de VQA. Par ailleurs, nous menons une analyse coût-bénéfice en fonction de la taille du modèle en étudiant jusqu’où l’on peut procéder à une élagage (pruning) sans perte significative de précision. Nos résultats expérimentaux montrent qu’il est possible de réduire efficacement la taille de LXMERT de 40 % à 60 % tout en n’acceptant qu’une perte de précision de 3 %.