Adopter les Événements et les Cadres avec un Réseau de Réfinement Hiérarchique des Caractéristiques pour la Détection d'Objets

Dans les systèmes de vision basés sur des trames, la détection d’objets subit une dégradation significative des performances dans des conditions difficiles, en raison de la capacité de détection limitée des caméras conventionnelles. Les caméras à événements génèrent des événements rares et asynchrones, offrant ainsi une solution potentielle pour surmonter ces limitations. Toutefois, la fusion efficace de deux modalités hétérogènes demeure un problème ouvert. Dans ce travail, nous proposons un nouveau réseau hiérarchique de raffinement de caractéristiques pour la fusion événement-trame. Le concept central repose sur la conception d’un module de fusion grossier-vers-fin, désigné comme module de raffinement adaptatif des caractéristiques inter-modales (CAFR). Au stade initial, la partie interaction croisée bidirectionnelle (BCI) permet de relier efficacement les informations provenant des deux sources distinctes. Ensuite, les caractéristiques sont affinées davantage par alignement des moyennes et variances au niveau des canaux dans la partie de raffinement adaptatif à deux étapes (TAFR). Nous avons mené des expériences approfondies sur deux jeux de données : le jeu PKU-DDD17-Car à faible résolution et le jeu DSEC à haute résolution. Les résultats expérimentaux montrent que notre méthode dépasse l’état de l’art avec une marge impressionnante de $\textbf{8,0}\%$ sur le jeu DSEC. En outre, notre approche présente une robustesse nettement supérieure (respectivement $\textbf{69,5}\%$ contre $\textbf{38,7}\%$) lorsqu’on introduit 15 types différents de dégradations dans les images trame. Le code est disponible à l’adresse suivante : (https://github.com/HuCaoFighting/FRN).