HyperAIHyperAI
vor 19 Tagen

Meta-Explore: Exploratorische hierarchische Vision-und-Sprache-Navigation unter Verwendung der Szenenobjekt-Spektrum-Grundlage

Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh
Meta-Explore: Exploratorische hierarchische Vision-und-Sprache-Navigation unter Verwendung der Szenenobjekt-Spektrum-Grundlage
Abstract

Die zentrale Herausforderung im Vision-and-Language-Navigation (VLN) besteht darin, natürliche Sprachanweisungen in einer bisher unbekannten Umgebung zu verstehen. Der Hauptnachteil herkömmlicher VLN-Algorithmen liegt darin, dass ein falsch ausgeführter Schritt dazu führt, dass das Agens die Anweisungen nicht mehr korrekt befolgen kann oder unnötige Bereiche erkundet, was den Agenten auf einen irreversiblen Pfad führt. Um dieses Problem anzugehen, schlagen wir Meta-Explore vor, eine hierarchische Navigationsmethode, die eine Ausbeutungsstrategie einsetzt, um kürzlich fehlerhafte Aktionen zu korrigieren. Wir zeigen, dass eine Ausbeutungsstrategie, die den Agenten in Richtung eines sorgfältig ausgewählten lokalen Ziels unter den noch nicht besuchten, aber sichtbaren Zuständen bewegt, eine Methode übertrifft, die den Agenten zu einem bereits besuchten Zustand führt. Außerdem unterstreichen wir die Notwendigkeit, verpasste Erkundungen mit semantisch sinnvollen Hinweisen zu simulieren. Der Schlüssel unseres Ansatzes liegt in der Interpretation der Objektanordnungen in der Spektraldomäne um den Agenten herum. Genauer präsentieren wir eine neuartige visuelle Repräsentation namens Scene Object Spectrum (SOS), die eine kategorienbasierte zweidimensionale Fourier-Transformation der detektierten Objekte durchführt. Durch die Kombination der Ausbeutungsstrategie mit SOS-Features kann der Agent seinen Pfad korrigieren, indem er ein vielversprechendes lokales Ziel auswählt. Wir evaluieren unsere Methode an drei VLN-Benchmarks: R2R, SOON und REVERIE. Meta-Explore übertrifft dabei andere Baselines und zeigt eine signifikante Generalisierungsfähigkeit. Zudem führt die Suche nach lokalen Zielen unter Verwendung der vorgeschlagenen Spektraldomänen-SOS-Features zu einer Steigerung der Erfolgsrate um 17,1 % und der SPL um 20,6 % im SOON-Benchmark.

Meta-Explore: Exploratorische hierarchische Vision-und-Sprache-Navigation unter Verwendung der Szenenobjekt-Spektrum-Grundlage | Forschungsarbeiten | HyperAI