Visual Instruction Following
"Suivi Visuel d'Instructions" est une tâche multimodale visant à permettre aux machines de comprendre et d'exécuter des instructions en langage naturel basées sur des entrées visuelles. Cette tâche intègre les technologies de vision par ordinateur et de traitement du langage naturel, identifiant et répondant précisément aux commandes des utilisateurs en analysant les informations visuelles provenant d'images ou de vidéos, afin d'atteindre une interaction humain-machine efficace. Son objectif est d'améliorer l'adaptabilité et la précision de l'exécution des tâches par les machines dans des environnements complexes, avec une valeur d'application étendue, notamment dans la navigation des robots intelligents, les opérations automatisées et l'assistance aux personnes malvoyantes.