Lernen, in unbekannten Umgebungen zu navigieren: Rückübersetzung mit Umgebungsdropout

Ein großes Ziel der Künstlichen Intelligenz (KI) ist es, einen Roboter zu entwickeln, der sich auf Basis natürlicher Sprachanweisungen präzise orientieren kann. Dies erfordert, dass das Agent die Umgebung wahrnimmt, die Sprache versteht und in den Kontext einordnet sowie in der realen Welt handelt. Eine wesentliche Herausforderung dabei besteht darin, das Navigieren in neuen, während des Trainings nicht gesehenen Umgebungen zu erlernen. Die meisten existierenden Ansätze zeigen bei unbekannten Umgebungen deutlich schlechtere Leistungen als bei bekannten.In dieser Arbeit stellen wir einen generalisierbaren Navigationsagent vor. Unser Agent wird in zwei Phasen trainiert. Im ersten Schritt erfolgt das Training durch eine Kombination von Imitation Learning und Reinforcement Learning, wobei die Vorteile sowohl von off-policy- als auch von on-policy-Optimierung genutzt werden. Im zweiten Schritt wird das Modell anhand neu eingeführter "unbekannter" Triplets (Umgebung, Pfad, Anweisung) weiter angepasst. Um diese unbekannten Triplets zu generieren, schlagen wir eine einfache aber effektive Methode des "Umgebungs-Dropouts" vor, um unbekannte Umgebungen nachzuahmen. Diese Methode überwindet das Problem der begrenzten Variabilität bekannter Umgebungen.Im nächsten Schritt wenden wir semi-supervised Learning (durch Rückübersetzung) auf diesen dropout-generierten Umgebungen an, um neue Pfade und Anweisungen zu erstellen. Empirisch zeigen wir, dass unser Agent nach dem Feinjustieren mit diesen Triplets erheblich besser generalisiert. Er übertreffen die Stand-von-der-Kunst-Ansätze um ein großes Maß auf dem privaten Testset für unbekannte Umgebungen des Room-to-Room-Tasks und erreicht den besten Platz im Leaderboard.