Ein rekurrentes Vision-und-Sprache-BERT für die Navigation

Die Genauigkeit vieler visuolinguistischer Aufgaben hat erheblich von der Anwendung von Vision-and-Language (V&L)-BERT profitiert. Ihre Anwendung für die Aufgabe der Vision-and-Language-Navigation (VLN) bleibt jedoch beschränkt. Ein Grund hierfür ist die Schwierigkeit, die BERT-Architektur an den teilweise beobachtbaren Markov-Entscheidungsprozess in der VLN anzupassen, der eine historieabhängige Aufmerksamkeit und Entscheidungsfindung erfordert. In diesem Paper stellen wir ein rekurrentes BERT-Modell vor, das zeitbewusst ist und für die VLN eingesetzt werden kann. Konkret versehen wir das BERT-Modell mit einer rekurrenten Funktion, die Zustandsinformationen über mehrere Modalitäten für das Agens aufrechterhält. Anhand umfangreicher Experimente auf den Datensätzen R2R und REVERIE zeigen wir, dass unser Modell komplexere Encoder-Decoder-Modelle ersetzen kann und dabei Ergebnisse auf State-of-the-Art-Niveau erzielt. Darüber hinaus ist unser Ansatz auf andere transformerbasierte Architekturen übertragbar, unterstützt Pre-Training und ist in der Lage, Navigation und Referenzausdrucksaufgaben gleichzeitig zu lösen.