HyperAIHyperAI
vor 17 Tagen

VLN-PETL: Parameter-effizientes Transfer-Lernen für Vision-und-Sprache-Navigation

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL: Parameter-effizientes Transfer-Lernen für Vision-und-Sprache-Navigation
Abstract

Die Leistungsfähigkeit von Vision-and-Language-Navigation-(VLN-)Aufgaben hat in letzter Zeit aufgrund der Verwendung großer vortrainierter Vision-und-Sprache-Modelle erheblich zugenommen. Dennoch wird das vollständige Feintunen des vortrainierten Modells für jede einzelne abgeleitete VLN-Aufgabe aufgrund der erheblichen Modellgröße zunehmend kostspielig. Kürzlich hat sich der Forschungsschwerpunkt auf parameter-effizientes Transferlernen (Parameter-Efficient Transfer Learning, PETL) als äußerst vielversprechend erwiesen, um große vortrainierte Modelle effizient für allgemeine Computer-Vision- und NLP-Aufgaben anzupassen. Dabei wird der Großteil des in dem vortrainierten Modell enthaltenen Repräsentationswissens ausgenutzt, während lediglich eine minimale Menge an Parametern angepasst wird. Allerdings kann die reine Anwendung bestehender PETL-Methoden auf die anspruchsvolleren VLN-Aufgaben zu einer signifikanten Leistungseinbuße führen. Daher präsentieren wir die erste Studie, die PETL-Methoden für VLN-Aufgaben untersucht, und schlagen eine auf VLN zugeschnittene PETL-Methode namens VLN-PETL vor. Konkret entwerfen wir zwei PETL-Module: das Historical Interaction Booster (HIB) und den Cross-modal Interaction Booster (CIB). Diese beiden Module kombinieren wir anschließend mit mehreren bestehenden PETL-Methoden, um das integrierte VLN-PETL zu erhalten. Umfangreiche experimentelle Ergebnisse auf vier etablierten VLN-Aufgaben (R2R, REVERIE, NDH, RxR) belegen die Wirksamkeit unseres vorgeschlagenen VLN-PETL. Dabei erreicht VLN-PETL eine vergleichbare oder sogar bessere Leistung als das vollständige Feintunen und übertrifft andere PETL-Methoden mit überzeugenden Abständen.

VLN-PETL: Parameter-effizientes Transfer-Lernen für Vision-und-Sprache-Navigation | Neueste Forschungsarbeiten | HyperAI