HyperAIHyperAI
vor 11 Tagen

Hierarchisches cross-modales Agentensystem für die Robotervision- und Sprachnavigation

Hierarchisches cross-modales Agentensystem für die Robotervision- und Sprachnavigation
Abstract

Deep Learning hat unsere Fähigkeit revolutioniert, komplexe Probleme wie Vision-and-Language-Navigation (VLN) zu lösen. Bei dieser Aufgabe muss ein Agent sich rein auf Basis visueller Sensorinformationen und natürlicher Sprachanweisungen zu einem Ziel bewegen. Bisherige Ansätze formulieren das Problem jedoch als Navigation auf einem diskreten Graphen mit einer diskreten Aktionsmenge. In dieser Arbeit heben wir den Agenten von diesem Navigationgraphen ab und stellen eine anspruchsvollere VLN-Situation in kontinuierlichen, dreidimensional rekonstruierten Umgebungen vor. Unser vorgeschlagenes Setting, Robo-VLN, nähert sich den Herausforderungen der realen Weltnavigation deutlich stärker an. Robo-VLN-Aufgaben zeichnen sich durch längere Trajektorienlängen, kontinuierliche Aktionsräume und zusätzliche Schwierigkeiten wie Hindernisse aus. Wir stellen eine Reihe von Benchmarks bereit, die sich an state-of-the-art-Ansätzen für diskrete VLN orientieren, und zeigen, dass diese bei dieser Aufgabe weniger effektiv sind. Weiterhin argumentieren wir, dass die Aufgabe durch die Dekomposition in spezialisierte hoch- und niedrigstufige Politiken effizienter bewältigt werden kann. Durch umfangreiche Experimente zeigen wir, dass unser vorgeschlagener hierarchischer, multimodaler Agent (Hierarchical Cross-Modal, HCM) dank geschichteter Entscheidungsfindung, modularer Trainingsschemata sowie der Entkopplung von Schlussfolgerung und Imitation in allen zentralen Metriken die bestehenden Benchmarks übertrifft und eine neue Benchmark für Robo-VLN setzt.

Hierarchisches cross-modales Agentensystem für die Robotervision- und Sprachnavigation | Neueste Forschungsarbeiten | HyperAI