HyperAIHyperAI

Command Palette

Search for a command to run...

VLN-PETL: Parameter-effizientes Transfer-Lernen für Vision-und-Sprache-Navigation

Yanyuan Qiao Zheng Yu Qi Wu

Zusammenfassung

Die Leistungsfähigkeit von Vision-and-Language-Navigation-(VLN-)Aufgaben hat in letzter Zeit aufgrund der Verwendung großer vortrainierter Vision-und-Sprache-Modelle erheblich zugenommen. Dennoch wird das vollständige Feintunen des vortrainierten Modells für jede einzelne abgeleitete VLN-Aufgabe aufgrund der erheblichen Modellgröße zunehmend kostspielig. Kürzlich hat sich der Forschungsschwerpunkt auf parameter-effizientes Transferlernen (Parameter-Efficient Transfer Learning, PETL) als äußerst vielversprechend erwiesen, um große vortrainierte Modelle effizient für allgemeine Computer-Vision- und NLP-Aufgaben anzupassen. Dabei wird der Großteil des in dem vortrainierten Modell enthaltenen Repräsentationswissens ausgenutzt, während lediglich eine minimale Menge an Parametern angepasst wird. Allerdings kann die reine Anwendung bestehender PETL-Methoden auf die anspruchsvolleren VLN-Aufgaben zu einer signifikanten Leistungseinbuße führen. Daher präsentieren wir die erste Studie, die PETL-Methoden für VLN-Aufgaben untersucht, und schlagen eine auf VLN zugeschnittene PETL-Methode namens VLN-PETL vor. Konkret entwerfen wir zwei PETL-Module: das Historical Interaction Booster (HIB) und den Cross-modal Interaction Booster (CIB). Diese beiden Module kombinieren wir anschließend mit mehreren bestehenden PETL-Methoden, um das integrierte VLN-PETL zu erhalten. Umfangreiche experimentelle Ergebnisse auf vier etablierten VLN-Aufgaben (R2R, REVERIE, NDH, RxR) belegen die Wirksamkeit unseres vorgeschlagenen VLN-PETL. Dabei erreicht VLN-PETL eine vergleichbare oder sogar bessere Leistung als das vollständige Feintunen und übertrifft andere PETL-Methoden mit überzeugenden Abständen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLN-PETL: Parameter-effizientes Transfer-Lernen für Vision-und-Sprache-Navigation | Paper | HyperAI