Quand la Détection des Piétons Rencontre l'Apprentissage Multimodal : Modèle Généraliste et Jeu de Données de Référence

Ces dernières années ont vu une augmentation de l'attention portée à la détection des piétons en tirant parti de différentes modalités de capteurs (par exemple, RGB, IR, Profondeur, LiDAR et Événement). Cependant, concevoir un modèle généraliste unifié capable de traiter efficacement diverses modalités de capteurs reste un défi. Cet article présente MMPedestron, un nouveau modèle généraliste pour la perception multimodale. Contrairement aux modèles spécialisés précédents qui ne traitent qu'une ou une paire de modalités spécifiques, MMPedestron est capable de traiter plusieurs entrées modales et leurs combinaisons dynamiques. L'approche proposée comprend un encodeur unifié pour la représentation et la fusion modales ainsi qu'une tête générale pour la détection des piétons. Nous introduisons deux jetons apprenables supplémentaires, à savoir MAA et MAF, pour une fusion adaptative des caractéristiques multimodales. De plus, nous avons construit le jeu de données MMPD, le premier grand benchmark pour la détection des piétons multimodale. Ce benchmark intègre des jeux de données publics existants et un nouveau jeu de données appelé EventPed, couvrant une large gamme de modalités de capteurs incluant les données RGB, IR, Profondeur, LiDAR et Événement. Avec une formation conjointe multimodale, notre modèle atteint des performances d'état de l'art sur une large gamme de benchmarks de détection des piétons, surpassant les modèles leaders conçus pour une modalité spécifique de capteur. Par exemple, il obtient un AP (Average Precision) de 71,1 sur COCO-Persons et un AP de 72,6 sur LLVIP. Notamment, notre modèle atteint des performances comparables à celles du modèle InternImage-H sur CrowdHuman avec 30 fois moins de paramètres. Les codes et les données sont disponibles à l'adresse suivante : https://github.com/BubblyYi/MMPedestron.