Modellkompression des LXMERT für Visual Question Answering

Großskalige vortrainierte Modelle wie LXMERT gewinnen zunehmend an Beliebtheit für die Lernung von multimodalen Darstellungen auf Text-Bild-Paaren in Aufgaben des visuellen Sprachverstehens. Gemäß der Lottery-Ticket-Hypothese enthalten NLP- und Computer-Vision-Modelle kleinere Subnetze, die unabhängig voneinander trainiert werden können, um die volle Leistungsfähigkeit zu erreichen. In diesem Artikel kombinieren wir diese Beobachtungen, um zu untersuchen, ob solche trainierbaren Subnetze in LXMERT existieren, wenn das Modell auf die VQA-Aufgabe fine-tuned wird. Zudem führen wir eine Kosten-Nutzen-Analyse der Modellgröße durch, indem wir untersuchen, wie stark das Modell ohne signifikanten Genauigkeitsverlust gepruned werden kann. Unsere experimentellen Ergebnisse zeigen, dass LXMERT effektiv um 40 % bis 60 % reduziert werden kann, wobei lediglich ein Genauigkeitsverlust von 3 % auftritt.