Reconstruction vidéo basée sur les événements utilisant un Transformer

Les caméras à événements, qui génèrent des événements en détectant des changements spatio-temporels de luminosité, introduisent un nouveau paradigme pour les capteurs d’image, offrant une plage dynamique élevée et une latence réduite. Les travaux antérieurs ont obtenu des performances remarquables dans la reconstruction de vidéos basées sur les événements en intégrant des réseaux de neurones convolutifs (CNN). Toutefois, la localité intrinsèque des opérations de convolution ne permet pas de modéliser efficacement les dépendances à longue portée, qui sont cruciales pour de nombreuses tâches de vision. Dans cet article, nous proposons ET-Net, un réseau hybride CNN-Transformateur pour la reconstruction de vidéos basées sur les événements, combinant avantageusement les informations locales précises des CNN et les contextes globaux fournis par le Transformateur. Par ailleurs, nous introduisons une stratégie de regroupement pyramidale de tokens (Token Pyramid Aggregation) afin de réaliser une intégration multi-échelle des tokens, permettant ainsi de relier des concepts sémantiques internes et interconnectés dans l’espace des tokens. Les résultats expérimentaux montrent que notre méthode atteint des performances supérieures par rapport aux approches de pointe sur plusieurs jeux de données réels d’événements. Le code est disponible à l’adresse suivante : https://github.com/WarranWeng/ET-Net