Réseaux de fusion de trames d'événements flexibles basés sur les LSTM et les convolutions déformables pour le flou de mouvement

Les caméras à événements se distinguent des caméras RGB conventionnelles par la nature asynchrone de leurs données. Alors que les caméras RGB capturent chaque trame à une fréquence fixe, les caméras à événements neregistrent que les changements dans la scène, produisant ainsi une sortie de données creuse et asynchrone. Bien que les données à événements contiennent des informations utiles pouvant être exploitées pour le déflouage du mouvement dans les images RGB, l'intégration de ces données avec les informations d'image reste un défi. Les solutions les plus récentes basées sur les réseaux de neurones convolutifs (CNN) produisent plusieurs trames 2D à événements en accumulant les données sur une période temporelle donnée. Toutefois, dans la plupart de ces approches, le nombre de trames à événements est fixe et prédéfini, ce qui réduit fortement la résolution temporelle, en particulier dans les scénarios impliquant des objets en mouvement rapide ou des temps d’exposition prolongés. Il est également important de noter que les caméras modernes (par exemple, celles intégrées aux téléphones portables) ajustent dynamiquement le temps d’exposition de l’image, ce qui pose un problème supplémentaire pour les réseaux conçus pour un nombre fixe de trames à événements. Afin de relever ces défis, un module d’extraction de caractéristiques à événements basé sur un réseau à mémoire à long court terme (LSTM) a été développé, permettant ainsi d’utiliser un nombre variable dynamique de trames à événements. En exploitant ces modules, nous avons construit un réseau de déflouage de pointe, le Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network (DLEFNet). Ce réseau s’avère particulièrement efficace dans les scénarios où les temps d’exposition varient en fonction de facteurs tels que les conditions d’éclairage ou la présence d’objets en mouvement rapide. Les résultats d’évaluation montrent que la méthode proposée dépasse les réseaux de pointe existants pour la tâche de déflouage, tant sur des jeux de données synthétiques que sur des données du monde réel.