HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse de la généralisation de la navigation vision-langage à des zones extérieures inconnues

Raphael Schumann Stefan Riezler

Résumé

La navigation vision-langage (VLN) constitue une tâche exigeante d’entendement linguistique ancrée visuellement. Étant donné une instruction de navigation en langage naturel, un agent visuel interagit avec un environnement basé sur un graphe, doté d’images panoramiques, dans le but de suivre le trajet décrit. La plupart des travaux antérieurs ont porté sur des scénarios intérieurs, où les meilleurs résultats ont été obtenus pour des trajets similaires à ceux utilisés lors de l’entraînement, avec une chute marquée des performances lors de l’évaluation sur des environnements inconnus. Nous nous concentrons sur la VLN dans des scénarios extérieurs et constatons qu’en contraste avec la VLN intérieure, la majorité de l’amélioration observée sur des données inconnues dans les environnements extérieurs provient d’éléments spécifiques au graphe de l’environnement, tels que l’encodage du type de carrefour ou le delta d’orientation, tandis que l’information visuelle joue un rôle très mineur dans la généralisation de la VLN vers des zones extérieures inconnues. Ces résultats révèlent un biais en faveur des représentations graphiques spécifiques des environnements urbains, ce qui implique que les tâches de VLN doivent s’étendre à une échelle plus grande et à une diversité géographique accrue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp