Vision Language Navigation
La navigation guidée par la vision et le langage (VLN) est une tâche qui permet aux agents incarnés d'exécuter des instructions en langage naturel dans des environnements réels en 3D. L'objectif de cette tâche est d'atteindre une compréhension et une navigation autonome de l'agent dans des environnements complexes en intégrant les informations visuelles et linguistiques, ce qui présente une valeur d'application importante dans des domaines tels que la robotique intelligente et les assistants virtuels.