Taktische Rückverfolgung: Selbstkorrektur durch Rückwärtsverfolgung in der visuellen und sprachlichen Navigation

Wir präsentieren den Frontier Aware Search with backTracking (FAST)-Navigator, einen allgemeinen Rahmen für die Aktionsspezifikation, der auf der Room-to-Room (R2R)-Vision-and-Language-Navigation-Herausforderung von Anderson et al. (2018) Stand-des-Wissens-Ergebnisse erzielt. Gegeben sind eine natürlichsprachliche Anweisung und foto-realistische Bildansichten einer bisher unbekannten Umgebung; das Agent soll so schnell wie möglich von der Quelle zum Zielort navigieren. Während alle aktuellen Ansätze lokale Aktionen entscheiden oder gesamte Trajektorien mithilfe des Strahlensuchverfahrens bewerten, balanciert unser Verfahren lokale und globale Signale beim Erkunden einer unbeobachteten Umgebung. Besonders wichtig ist dabei, dass wir gierig handeln können, aber bei Bedarf globale Signale nutzen, um zurückzukehren. Die Anwendung des FAST-Rahmens auf bestehende Stand-des-Wissens-Modelle führte zu einem relativen Gewinn von 17 % und einem absoluten Gewinn von 6 % in Bezug auf den durch die Pfadelementlänge gewichteten Erfolgsgrad (SPL).