HyperAIHyperAI

Command Palette

Search for a command to run...

Ein rekurrentes Vision-und-Sprache-BERT für die Navigation

Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould

Zusammenfassung

Die Genauigkeit vieler visuolinguistischer Aufgaben hat erheblich von der Anwendung von Vision-and-Language (V&L)-BERT profitiert. Ihre Anwendung für die Aufgabe der Vision-and-Language-Navigation (VLN) bleibt jedoch beschränkt. Ein Grund hierfür ist die Schwierigkeit, die BERT-Architektur an den teilweise beobachtbaren Markov-Entscheidungsprozess in der VLN anzupassen, der eine historieabhängige Aufmerksamkeit und Entscheidungsfindung erfordert. In diesem Paper stellen wir ein rekurrentes BERT-Modell vor, das zeitbewusst ist und für die VLN eingesetzt werden kann. Konkret versehen wir das BERT-Modell mit einer rekurrenten Funktion, die Zustandsinformationen über mehrere Modalitäten für das Agens aufrechterhält. Anhand umfangreicher Experimente auf den Datensätzen R2R und REVERIE zeigen wir, dass unser Modell komplexere Encoder-Decoder-Modelle ersetzen kann und dabei Ergebnisse auf State-of-the-Art-Niveau erzielt. Darüber hinaus ist unser Ansatz auf andere transformerbasierte Architekturen übertragbar, unterstützt Pre-Training und ist in der Lage, Navigation und Referenzausdrucksaufgaben gleichzeitig zu lösen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein rekurrentes Vision-und-Sprache-BERT für die Navigation | Paper | HyperAI