SOON: Szenarioorientierte Objektnavigation mit graphbasiertem Exploration

Die Fähigkeit, wie ein Mensch in einer 3D-embodierten Umgebung von beliebiger Ausgangsposition aus zu einem sprachgesteuerten Ziel zu navigieren, gilt als eines der „heiligen Gräle“ intelligenten Roboters. Die meisten gängigen Benchmark-Datenbanken für visuelle Navigation konzentrieren sich jedoch auf die Navigation von einem festen Startpunkt aus, wobei detaillierte, schrittweise Anweisungen vorgegeben werden. Dieser Ansatz weicht von realen Anwendungsszenarien ab, in denen Menschen lediglich beschreiben, wie das Zielobjekt und seine Umgebung aussehen, und den Roboter auffordern, die Navigation von jeder beliebigen Position aus zu beginnen. In diesem Artikel führen wir daher eine neue Aufgabenstellung namens „Scenario Oriented Object Navigation (SOON)“ ein. Bei dieser Aufgabe muss ein Agent von einer beliebigen Position in einer 3D-embodierten Umgebung aus navigieren, um ein Zielobjekt mithilfe einer Szenenbeschreibung zu lokalisieren. Um eine vielversprechende Lösungsrichtung für diese Aufgabe zu bieten, schlagen wir eine neuartige graphenbasierte Exploration (Graph-Based Exploration, GBE) vor, die den Navigationzustand als Graph modelliert und einen innovativen graphenbasierten Ansatz zur Wissensgewinnung einsetzt, wobei durch die Lernung suboptimaler Trajektorien die Stabilität des Trainings verbessert wird. Zudem präsentieren wir eine neue, großskalige Benchmark-Datenbank namens „From Anywhere to Object (FAO)“. Um Zielambiguitäten zu vermeiden, enthält die Beschreibung im FAO-Datensatz umfassende semantische Szeneninformationen, darunter Objektattribute, Objektbeziehungen, Regionenbeschreibungen sowie Beschreibungen benachbarter Bereiche. Unsere Experimente zeigen, dass die vorgeschlagene GBE-Methode sowohl auf dem FAO- als auch auf dem R2R-Datensatz verschiedene State-of-the-Art-Verfahren übertrifft. Zudem bestätigen Ablationsstudien auf dem FAO-Datensatz die hohe Qualität der Datenbank.