HyperAIHyperAI

Command Palette

Search for a command to run...

Modellkompression des LXMERT für Visual Question Answering

Maryam Hashemi Ghazaleh Mahmoudi Sara Kodeiri Hadi Sheikhi Sauleh Eetemadi

Zusammenfassung

Großskalige vortrainierte Modelle wie LXMERT gewinnen zunehmend an Beliebtheit für die Lernung von multimodalen Darstellungen auf Text-Bild-Paaren in Aufgaben des visuellen Sprachverstehens. Gemäß der Lottery-Ticket-Hypothese enthalten NLP- und Computer-Vision-Modelle kleinere Subnetze, die unabhängig voneinander trainiert werden können, um die volle Leistungsfähigkeit zu erreichen. In diesem Artikel kombinieren wir diese Beobachtungen, um zu untersuchen, ob solche trainierbaren Subnetze in LXMERT existieren, wenn das Modell auf die VQA-Aufgabe fine-tuned wird. Zudem führen wir eine Kosten-Nutzen-Analyse der Modellgröße durch, indem wir untersuchen, wie stark das Modell ohne signifikanten Genauigkeitsverlust gepruned werden kann. Unsere experimentellen Ergebnisse zeigen, dass LXMERT effektiv um 40 % bis 60 % reduziert werden kann, wobei lediglich ein Genauigkeitsverlust von 3 % auftritt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp