HyperAIHyperAI
il y a 2 mois

Agent Journey Beyond RGB : Révélation des Représentations Environnementales Hybrides Sémantico-Spatiales pour la Navigation Vision-Langage

Xuesong Zhang; Yunbo Xu; Jia Li; Zhenzhen Hu; Richnag Hong
Agent Journey Beyond RGB : Révélation des Représentations Environnementales Hybrides Sémantico-Spatiales pour la Navigation Vision-Langage
Résumé

La navigation dans des environnements inconnus basée sur des instructions en langage naturel reste un défi pour les agents égocentriques dans la Navigation Vision-Langue (VLN). Les approches actuelles s'appuient principalement sur des images RGB pour représenter l'environnement, sous-exploitant les indices sémantiques et spatiaux latents et laissant le fossé modal entre les instructions et les représentations environnementales rares non résolu. Intuitivement, les humains ancrent naturellement leurs connaissances sémantiques dans les dispositions spatiales lors de la navigation en intérieur. Inspirés par ce constat, nous proposons une architecture polyvalente de Compréhension Sémantique et Conscience Spatiale (SUSA) afin d'encourager les agents à ancrer l'environnement sous différents angles. SUSA comprend un module de Compréhension Sémantique Textuelle (TSU), qui réduit le fossé modal entre les instructions et l'environnement en générant et associant des descriptions des repères environnementaux immédiats aux alentours de l'agent. De plus, un module de Perception Spatiale Améliorée par la Profondeur (DSP) construit progressivement une carte d'exploration en profondeur, permettant une compréhension plus nuancée des dispositions environnementales. Les expériences montrent que les représentations hybrides sémantico-spatiales de SUSA améliorent efficacement les performances de navigation, établissant de nouveaux records sur trois benchmarks VLN (REVERIE, R2R et SOON). Le code source sera rendu publiquement disponible.

Agent Journey Beyond RGB : Révélation des Représentations Environnementales Hybrides Sémantico-Spatiales pour la Navigation Vision-Langage | Articles de recherche récents | HyperAI