Lire entre les lignes : la vidéo-Question-Réponse textuelle sur la route

Les textes et les panneaux routiers fournissent des informations essentielles aux conducteurs, cruciales pour une navigation sécurisée et une bonne prise de conscience du contexte. La reconnaissance du texte dans une scène en mouvement constitue un problème particulièrement difficile, car les indications textuelles apparaissent généralement pendant de courtes durées, rendant indispensable une détection précoce à distance. Les systèmes exploitant ces informations pour aider le conducteur doivent non seulement extraire et intégrer les indices visuels et textuels provenant du flux vidéo, mais aussi raisonner sur le temps. Pour relever ce défi, nous introduisons RoadTextVQA, un nouveau jeu de données dédié à la tâche de réponse aux questions vidéo (VideoQA) dans le cadre de l’assistance au conducteur. RoadTextVQA comprend 3 222 vidéos de conduite collectées dans plusieurs pays, annotées avec 10 500 questions, toutes fondées sur des textes ou des panneaux présents dans les vidéos. Nous évaluons les performances des modèles de réponse aux questions vidéo les plus avancés sur notre jeu de données RoadTextVQA, mettant en évidence un potentiel important d'amélioration dans ce domaine, ainsi que la valeur de ce jeu de données pour faire progresser la recherche sur les systèmes d’aide à bord et la réponse aux questions multimodales sensibles au texte. Le jeu de données est disponible à l’adresse suivante : http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa