HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers Vision récurrents pour la détection d'objets avec des caméras à événements

Mathias Gehrig Davide Scaramuzza

Résumé

Nous présentons les Recurrent Vision Transformers (RVTs), un nouvel arrière-plan pour la détection d'objets basé sur des caméras à événements. Les caméras à événements fournissent des informations visuelles avec une latence sub-millisecondaire, une plage dynamique élevée et une robustesse notable contre le flou de mouvement. Ces propriétés uniques offrent un potentiel considérable pour la détection et le suivi d'objets à faible latence dans des scénarios critiques en temps réel. Les travaux antérieurs en vision basée sur les événements ont atteint des performances de détection exceptionnelles, mais au prix d’un temps d’inférence important, généralement supérieur à 40 millisecondes. En repensant la conception globale des arrière-plans récurrents pour la vision, nous réduisons le temps d’inférence d’un facteur 6 tout en maintenant des performances comparables. Pour atteindre cet objectif, nous explorons une architecture en plusieurs étapes, intégrant trois concepts clés à chaque étape : premièrement, un préalable convolutif pouvant être interprété comme un embedding positionnel conditionnel ; deuxièmement, une attention auto-spatiale locale et dilatée pour favoriser l’interaction des caractéristiques spatiales ; troisièmement, une agrégation récurrente des caractéristiques temporelles afin de minimiser la latence tout en préservant l’information temporelle. Les RVTs peuvent être entraînés de zéro pour atteindre des performances de pointe dans la détection d'objets basée sur les événements — obtenant un mAP de 47,2 % sur le jeu de données Gen1 automobile. Par ailleurs, les RVTs offrent une inférence rapide (inférieure à 12 ms sur une GPU T4) et une efficacité en paramètres avantageuse (5 fois moins que les méthodes antérieures). Cette étude apporte de nouvelles perspectives sur des choix de conception efficaces, pouvant s’avérer fructueux au-delà du domaine de la vision basée sur les événements.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformers Vision récurrents pour la détection d'objets avec des caméras à événements | Articles | HyperAI