HyperAIHyperAI
il y a 19 jours

Meta-Explore : Navigation hiérarchique exploratoire vision-langage utilisant l'amarrage spectre des objets scéniques

Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh
Meta-Explore : Navigation hiérarchique exploratoire vision-langage utilisant l'amarrage spectre des objets scéniques
Résumé

Le défi principal de la navigation vision-langage (VLN) réside dans la compréhension des instructions en langage naturel dans un environnement inconnu. La limitation majeure des algorithmes classiques de VLN est qu'une erreur d'action entraîne souvent l'échec de l'agent à suivre les instructions ou une exploration inutile de régions, conduisant ainsi l'agent sur une trajectoire irréversible. Pour relever ce problème, nous proposons Meta-Explore, une méthode hiérarchique de navigation qui met en œuvre une politique d'exploitation afin de corriger les actions erronées récentes. Nous démontrons qu'une politique d'exploitation, qui oriente l'agent vers un objectif local soigneusement choisi parmi les états non visités mais observables, surpasse une approche qui dirige l'agent vers un état déjà visité. Nous soulignons également la nécessité d'imaginer des explorations regrettables à l'aide de indices sémantiquement significatifs. Le point clé de notre approche réside dans la compréhension de la disposition des objets autour de l'agent dans le domaine spectral. Plus précisément, nous introduisons une nouvelle représentation visuelle, appelée scène object spectrum (SOS), qui applique une transformation de Fourier 2D par catégorie aux objets détectés. En combinant la politique d'exploitation et les caractéristiques SOS, l'agent peut corriger sa trajectoire en choisissant un objectif local prometteur. Nous évaluons notre méthode sur trois benchmarks de VLN : R2R, SOON et REVERIE. Meta-Explore surpasser les autres méthodes de référence et démontre une capacité de généralisation significative. En outre, la recherche d'objectifs locaux utilisant les caractéristiques spectrales proposées améliore notablement le taux de réussite de 17,1 % et le SPL de 20,6 % sur le benchmark SOON.

Meta-Explore : Navigation hiérarchique exploratoire vision-langage utilisant l'amarrage spectre des objets scéniques | Articles de recherche | HyperAI