HyperAIHyperAI

Command Palette

Search for a command to run...

Meta-Explore: Exploratorische hierarchische Vision-und-Sprache-Navigation unter Verwendung der Szenenobjekt-Spektrum-Grundlage

Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh

Zusammenfassung

Die zentrale Herausforderung im Vision-and-Language-Navigation (VLN) besteht darin, natürliche Sprachanweisungen in einer bisher unbekannten Umgebung zu verstehen. Der Hauptnachteil herkömmlicher VLN-Algorithmen liegt darin, dass ein falsch ausgeführter Schritt dazu führt, dass das Agens die Anweisungen nicht mehr korrekt befolgen kann oder unnötige Bereiche erkundet, was den Agenten auf einen irreversiblen Pfad führt. Um dieses Problem anzugehen, schlagen wir Meta-Explore vor, eine hierarchische Navigationsmethode, die eine Ausbeutungsstrategie einsetzt, um kürzlich fehlerhafte Aktionen zu korrigieren. Wir zeigen, dass eine Ausbeutungsstrategie, die den Agenten in Richtung eines sorgfältig ausgewählten lokalen Ziels unter den noch nicht besuchten, aber sichtbaren Zuständen bewegt, eine Methode übertrifft, die den Agenten zu einem bereits besuchten Zustand führt. Außerdem unterstreichen wir die Notwendigkeit, verpasste Erkundungen mit semantisch sinnvollen Hinweisen zu simulieren. Der Schlüssel unseres Ansatzes liegt in der Interpretation der Objektanordnungen in der Spektraldomäne um den Agenten herum. Genauer präsentieren wir eine neuartige visuelle Repräsentation namens Scene Object Spectrum (SOS), die eine kategorienbasierte zweidimensionale Fourier-Transformation der detektierten Objekte durchführt. Durch die Kombination der Ausbeutungsstrategie mit SOS-Features kann der Agent seinen Pfad korrigieren, indem er ein vielversprechendes lokales Ziel auswählt. Wir evaluieren unsere Methode an drei VLN-Benchmarks: R2R, SOON und REVERIE. Meta-Explore übertrifft dabei andere Baselines und zeigt eine signifikante Generalisierungsfähigkeit. Zudem führt die Suche nach lokalen Zielen unter Verwendung der vorgeschlagenen Spektraldomänen-SOS-Features zu einer Steigerung der Erfolgsrate um 17,1 % und der SPL um 20,6 % im SOON-Benchmark.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp