Verstärktes Cross-Modales Matching und Selbstüberwachtes Imitationslernen für die Vision-Sprache-Navigation

Vision-Language-Navigation (VLN) ist die Aufgabe, einen eingebetteten Agenten durch natürliche Sprachanweisungen in realen 3D-Umgebungen zu navigieren. In dieser Arbeit untersuchen wir, wie man drei entscheidende Herausforderungen für diese Aufgabe angeht: das multimodale Ankerlegen, das inkorrekte Feedback und die Generalisierungsprobleme. Zunächst schlagen wir einen neuen Ansatz des verstärkten multimodalen Matchings (Reinforced Cross-Modal Matching, RCM) vor, der durch Verstärkungslernen (Reinforcement Learning, RL) sowohl lokal als auch global das multimodale Ankerlegen erzwingt. Insbesondere wird ein Matching-Kritiker verwendet, um eine intrinsische Belohnung zu geben und so globales Matching zwischen Anweisungen und Trajektorien zu fördern. Ein deduktiver Navigator wird eingesetzt, um das multimodale Ankerlegen in der lokalen visuellen Szene durchzuführen. Die Auswertung an einem Benchmark-Datensatz für VLN zeigt, dass unser RCM-Modell die bisherigen Methoden bei der SPL-Metrik um 10 % übertrifft und neue Spitzenleistungen erzielt. Um die Übertragbarkeit der gelernten Politik zu verbessern, führen wir außerdem eine Methode des selbstüberwachten Imitationslernens (Self-Supervised Imitation Learning, SIL) ein, mit der in unbekannten Umgebungen durch Nachahmung eigener früherer guter Entscheidungen erkundet werden kann. Wir zeigen, dass SIL eine bessere und effizientere Politik approximieren kann, was den Leistungsaufwand zwischen bekannten und unbekannten Umgebungen enorm reduziert (von 30,7 % auf 11,7 %).