HyperAIHyperAI
il y a 17 jours

Modèles à espace d'état pour caméras événementielles

Nikola Zubić, Mathias Gehrig, Davide Scaramuzza
Modèles à espace d'état pour caméras événementielles
Résumé

Aujourd’hui, les réseaux de neurones profonds d’avant-garde qui traitent les données provenant de caméras à événements convertissent d’abord une fenêtre temporelle d’événements en représentations d’entrée denses et à structure en grille. En conséquence, ces modèles présentent une généralisation médiocre lorsqu’ils sont déployés à des fréquences d’inférence plus élevées (c’est-à-dire avec des fenêtres temporelles plus courtes) que celles utilisées lors de l’entraînement. Nous abordons ce défi en introduisant des modèles à espace d’état (state-space models, SSM) dotés de paramètres d’échelle de temps apprenables pour la vision basée sur les événements. Cette architecture s’adapte à différentes fréquences sans nécessiter de re-entraînement du réseau à chaque fréquence. Par ailleurs, nous examinons deux stratégies visant à atténuer les effets de repliement (aliasing) lors du déploiement du modèle à des fréquences plus élevées. Nous évaluons de manière exhaustive notre approche par rapport aux méthodes existantes fondées sur des architectures RNN et Transformer, sur divers benchmarks, incluant des jeux de données provenant de caméras à événements Gen1 et à 1 Mpx. Nos résultats montrent que les modèles basés sur les SSM s’entraînent 33 % plus rapidement et présentent une dégradation de performance négligeable lorsqu’ils sont testés à des fréquences plus élevées que celles utilisées pendant l’entraînement. En revanche, les modèles RNN et Transformer classiques subissent une chute de performance supérieure à 20 mAP, tandis que les SSM ne connaissent qu’une baisse de 3,76 mAP, mettant ainsi en évidence l’efficacité des SSM dans les tâches de vision basée sur les événements.