MMHU : Un benchmark multimodal à grande échelle pour la compréhension du comportement humain

Les humains sont des composants intégraux de l'écosystème de transport, et la compréhension de leurs comportements est cruciale pour faciliter le développement de systèmes de conduite sûrs. Bien que les progrès récents aient exploré divers aspects du comportement humain, tels que les mouvements, les trajectoires et les intentions, une benchmark complète pour évaluer la compréhension du comportement humain dans la conduite autonome reste indisponible. Dans cette étude, nous proposons MMHU, une benchmark à grande échelle pour l'analyse du comportement humain, dotée d'annotations riches, notamment sur les mouvements et trajectoires humaines, des descriptions textuelles des mouvements humains, les intentions humaines et des labels de comportements critiques liés à la sécurité routière. Notre ensemble de données comprend 57 000 clips de mouvements humains et 1,73 million d'images provenant de sources variées, y compris des ensembles de données de conduite reconnus comme Waymo, des vidéos issues du web (YouTube) et des données collectées par nos soins. Nous avons développé un pipeline d'annotation impliquant l'intervention humaine pour générer des légendes comportementales détaillées. Nous fournissons une analyse approfondie de l'ensemble de données et évaluons plusieurs tâches – allant de la prédiction des mouvements à la génération des mouvements et aux questions-réponses sur le comportement humain – offrant ainsi une suite d'évaluation complète. Page du projet : https://MMHU-Benchmark.github.io.