HyperAIHyperAI
vor 2 Monaten

Agent Journey Beyond RGB: Enthüllung hybrider semantisch-raumbezogener Umgebungsrepräsentationen für visuelle und sprachliche Navigation

Xuesong Zhang; Yunbo Xu; Jia Li; Zhenzhen Hu; Richnag Hong
Agent Journey Beyond RGB: Enthüllung hybrider semantisch-raumbezogener Umgebungsrepräsentationen für visuelle und sprachliche Navigation
Abstract

Die Navigation in unbekannten Umgebungen auf der Grundlage natürlichsprachlicher Anweisungen bleibt für egozentrische Agenten im Bereich Vision-and-Language Navigation (VLN) schwierig. Bestehende Ansätze basieren hauptsächlich auf RGB-Bildern zur Darstellung der Umgebung und nutzen implizite textuelle semantische und räumliche Hinweise unterbewusst, was die Modalitätslücke zwischen Anweisungen und mangelhaften Umgebungsrepräsentationen ungelöst lässt. Intuitiv integrieren Menschen semantisches Wissen in räumliche Layouts während der Indoor-Navigation. Inspiriert von diesem Vorgang, schlagen wir eine vielseitige Architektur für semantisches Verständnis und räumliches Bewusstsein (SUSA) vor, um Agenten zu ermutigen, die Umgebung aus verschiedenen Perspektiven zu verankern. SUSA umfasst ein Modul für textuelles semantisches Verständnis (TSU), das die Modalitätslücke zwischen Anweisungen und Umgebung durch die Erzeugung und Zuordnung von Beschreibungen von Umgebungslandmarken in der unmittelbaren Nähe des Agenten verringert. Zudem enthält ein tiefenchverstärktes Modul für räumliche Wahrnehmung (DSP), das inkrementell eine Tiefenerkundungskarte erstellt, wodurch eine feinere Auffassung von Umgebungslayouts ermöglicht wird. Experimente zeigen, dass die hybriden semantisch-räumlichen Repräsentationen von SUSA die Navigationsleistung effektiv verbessern und neue Standarts auf drei VLN-Benchmarks (REVERIE, R2R und SOON) setzen. Der Quellcode wird öffentlich zur Verfügung gestellt.

Agent Journey Beyond RGB: Enthüllung hybrider semantisch-raumbezogener Umgebungsrepräsentationen für visuelle und sprachliche Navigation | Neueste Forschungsarbeiten | HyperAI