HyperAIHyperAI

Command Palette

Search for a command to run...

Navigation Vision-Language par Mixup Environnemental Aléatoire

Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen

Résumé

Les tâches de navigation vision-langage (VLN) exigent qu’un agent se déplace pas à pas tout en percevant des observations visuelles et en comprenant une instruction en langage naturel. Un biais important dans les données, dû au rapport disproportionné entre la taille limitée des données et l’étendue vaste de l’espace de navigation, rend cette tâche particulièrement difficile. Les travaux antérieurs ont proposé diverses méthodes d’augmentation de données afin de réduire ce biais. Toutefois, ces approches ne traitent pas explicitement la réduction du biais de données entre différentes scènes d’habitat. Par conséquent, l’agent tend à surapprendre aux scènes déjà vues et à obtenir de mauvaises performances dans des scènes inconnues. Pour résoudre ce problème, nous proposons une méthode appelée Random Environmental Mixup (REM), qui génère des scènes croisées entre maisons à partir de données augmentées par mélange d’environnements. Plus précisément, nous sélectionnons d’abord des points de vue clés en fonction du graphe de connexion des pièces pour chaque scène. Ensuite, nous connectons croisément les points de vue clés provenant de scènes différentes afin de construire des scènes augmentées. Enfin, nous générons des paires instruction-trajectoire augmentées dans ces scènes croisées. Les résultats expérimentaux sur des jeux de données standard montrent que nos données augmentées via REM permettent à l’agent de réduire l’écart de performance entre les environnements vus et inconnus, tout en améliorant les performances globales, ce qui fait de notre modèle l’approche la plus performante actuellement sur le benchmark standard de VLN. Le code source est disponible à l’adresse suivante : https://github.com/LCFractal/VLNREM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp