HyperAIHyperAI
vor 2 Monaten

Selbstüberwachender Navigationsagent durch Hilfsbasierte Fortschrittsabschätzung

Chih-Yao Ma; Jiasen Lu; Zuxuan Wu; Ghassan AlRegib; Zsolt Kira; Richard Socher; Caiming Xiong
Selbstüberwachender Navigationsagent durch Hilfsbasierte Fortschrittsabschätzung
Abstract

Die Aufgabe der visuellen-linguistischen Navigation (VLN) besteht darin, dass ein Agent navigationsbezogene Anweisungen in foto-realitären unbekannten Umgebungen befolgt. Diese anspruchsvolle Aufgabe erfordert, dass der Agent weiß, welche Anweisung bereits ausgeführt wurde, welche Anweisung als Nächstes erforderlich ist, in welche Richtung er sich bewegen soll und welchen Fortschritt er auf dem Weg zum Ziel gemacht hat. In dieser Arbeit stellen wir einen selbstüberwachenden Agenten mit zwei ergänzenden Komponenten vor: (1) einem Modul für visuell-linguistische Ko-Ankerlegung, um die bereits abgeschlossene Anweisung aus der Vergangenheit, die für die nächste Aktion erforderliche Anweisung und die nächste Bewegungsrichtung aus den umliegenden Bildern zu lokalisieren; und (2) einem Fortschrittsmonitor, um sicherzustellen, dass die angeankerte Anweisung den Navigationsfortschritt korrekt widerspiegelt. Wir testen unseren selbstüberwachenden Agenten an einem Standard-Benchmark und analysieren unseren vorgeschlagenen Ansatz durch eine Reihe von Abschleifstudien, die die Beiträge der Hauptkomponenten verdeutlichen. Mit unserer vorgeschlagenen Methode setzen wir einen neuen Stand der Technik bei weitem (8-prozentiger absoluter Anstieg des Erfolgsrates im nicht gesehenen Testset). Der Quellcode ist unter https://github.com/chihyaoma/selfmonitoring-agent verfügbar.