HyperAIHyperAI
il y a 16 jours

Compression du modèle LXMERT pour la réponse aux questions visuelles

Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
Compression du modèle LXMERT pour la réponse aux questions visuelles
Résumé

Les modèles pré-entraînés à grande échelle tels que LXMERT gagnent en popularité pour l’apprentissage de représentations croisées entre texte et image dans le cadre de tâches vision-langage. Selon l’hypothèse du ticket de loterie, les modèles de traitement du langage naturel (NLP) et de vision par ordinateur contiennent des sous-réseaux plus petits capables d’être entraînés de manière isolée jusqu’à atteindre des performances optimales. Dans ce travail, nous combinons ces observations afin d’évaluer l’existence de tels sous-réseaux entraînables dans LXMERT lorsqu’il est finement ajusté sur la tâche de VQA. Par ailleurs, nous menons une analyse coût-bénéfice en fonction de la taille du modèle en étudiant jusqu’où l’on peut procéder à une élagage (pruning) sans perte significative de précision. Nos résultats expérimentaux montrent qu’il est possible de réduire efficacement la taille de LXMERT de 40 % à 60 % tout en n’acceptant qu’une perte de précision de 3 %.

Compression du modèle LXMERT pour la réponse aux questions visuelles | Articles de recherche récents | HyperAI