Transformateur à court et long terme pour la détection d'actions en ligne

Nous présentons le Long Short-term TRansformer (LSTR), un algorithme de modélisation temporelle pour la détection en ligne d'actions, qui utilise un mécanisme de mémoire à long et court terme pour modéliser des données de séquences prolongées. Il se compose d'un encodeur LSTR qui exploite dynamiquement des informations historiques à grande échelle issues d'une fenêtre temporelle étendue (par exemple, 2048 images couvrant jusqu'à 8 minutes), associé à un décodeur LSTR qui se concentre sur une fenêtre temporelle courte (par exemple, 32 images couvrant 8 secondes) pour modéliser les caractéristiques fines des données. Comparé aux travaux antérieurs, LSTR fournit une méthode efficace et performante pour modéliser des vidéos longues avec moins d'heuristiques, ce qui est validé par une analyse empirique approfondie. LSTR atteint des performances de pointe sur trois benchmarks standards de détection en ligne d'actions : THUMOS'14, TVSeries et HACS Segment. Le code est disponible à l'adresse suivante : https://xumingze0308.github.io/projects/lstr