Transformers Vision récurrents pour la détection d'objets avec des caméras à événements

Nous présentons les Recurrent Vision Transformers (RVTs), un nouvel arrière-plan pour la détection d'objets basé sur des caméras à événements. Les caméras à événements fournissent des informations visuelles avec une latence sub-millisecondaire, une plage dynamique élevée et une robustesse notable contre le flou de mouvement. Ces propriétés uniques offrent un potentiel considérable pour la détection et le suivi d'objets à faible latence dans des scénarios critiques en temps réel. Les travaux antérieurs en vision basée sur les événements ont atteint des performances de détection exceptionnelles, mais au prix d’un temps d’inférence important, généralement supérieur à 40 millisecondes. En repensant la conception globale des arrière-plans récurrents pour la vision, nous réduisons le temps d’inférence d’un facteur 6 tout en maintenant des performances comparables. Pour atteindre cet objectif, nous explorons une architecture en plusieurs étapes, intégrant trois concepts clés à chaque étape : premièrement, un préalable convolutif pouvant être interprété comme un embedding positionnel conditionnel ; deuxièmement, une attention auto-spatiale locale et dilatée pour favoriser l’interaction des caractéristiques spatiales ; troisièmement, une agrégation récurrente des caractéristiques temporelles afin de minimiser la latence tout en préservant l’information temporelle. Les RVTs peuvent être entraînés de zéro pour atteindre des performances de pointe dans la détection d'objets basée sur les événements — obtenant un mAP de 47,2 % sur le jeu de données Gen1 automobile. Par ailleurs, les RVTs offrent une inférence rapide (inférieure à 12 ms sur une GPU T4) et une efficacité en paramètres avantageuse (5 fois moins que les méthodes antérieures). Cette étude apporte de nouvelles perspectives sur des choix de conception efficaces, pouvant s’avérer fructueux au-delà du domaine de la vision basée sur les événements.