HyperAIHyperAI
il y a 9 jours

SUTD-TrafficQA : Une base de données de réponse à des questions et un réseau efficace pour le raisonnement vidéo sur les événements de circulation

Li Xu, He Huang, Jun Liu
SUTD-TrafficQA : Une base de données de réponse à des questions et un réseau efficace pour le raisonnement vidéo sur les événements de circulation
Résumé

La cognition et le raisonnement des événements de trafic dans les vidéos constituent une tâche importante, aux applications nombreuses dans les systèmes de transport intelligents, la conduite assistée et les véhicules autonomes. Dans cet article, nous introduisons un nouveau jeu de données, SUTD-TrafficQA (Question-Réponse sur le trafic), basé sur 10 080 vidéos réelles (in-the-wild) et comprenant 62 535 paires question-réponse annotées, afin de constituer une référence (benchmark) pour évaluer les capacités cognitives des modèles de raisonnement causaux et de compréhension d’événements dans des scénarios de trafic complexes. Plus précisément, nous proposons six tâches de raisonnement exigeantes, correspondant à diverses situations de trafic, afin d’évaluer la capacité de raisonnement face à différents types d’événements de trafic complexes mais réalistes. Par ailleurs, nous introduisons Eclipse, un nouveau réseau efficace d’aperçus (glimpse network) fondé sur une inférence dynamique, permettant une raisonement vidéo à la fois efficace en termes de calcul et fiable. Les expériences montrent que notre méthode atteint des performances supérieures tout en réduisant significativement la charge computationnelle. Page du projet : https://github.com/SUTDCV/SUTD-TrafficQA.

SUTD-TrafficQA : Une base de données de réponse à des questions et un réseau efficace pour le raisonnement vidéo sur les événements de circulation | Articles de recherche récents | HyperAI