TACNet : Réseau de Contexte Conscient des Transitions pour la Détection d'Actions Spatio-Temporelles

Les approches actuelles de pointe pour la détection d'actions spatio-temporelles ont obtenu des résultats impressionnants, mais restent insatisfaisantes pour la détection de l'étendue temporelle. La principale raison en est que certaines situations ambiguës, similaires aux actions réelles, peuvent être considérées comme des actions cibles même par un réseau bien entraîné. Dans cet article, nous définissons ces échantillons ambigus comme des « états de transition » et proposons un réseau de contexte sensible à la transition (Transition-Aware Context Network, TACNet) pour distinguer ces états de transition. Le TACNet proposé comprend deux composants principaux : le détecteur de contexte temporel et le classifieur sensible à la transition. Le détecteur de contexte temporel peut extraire des informations de contexte à long terme avec une complexité temporelle constante en construisant un réseau récurrent. Le classifieur sensible à la transition peut, quant à lui, mieux distinguer les états de transition en classifiant simultanément les actions et les états de transition. Par conséquent, le TACNet proposé peut améliorer substantiellement les performances de la détection d'actions spatio-temporelles. Nous évaluons exhaustivement le TACNet proposé sur les jeux de données UCF101-24 et J-HMDB. Les résultats expérimentaux montrent que le TACNet obtient des performances compétitives sur J-HMDB et dépasse significativement les méthodes actuelles de pointe sur UCF101-24 non tronqué, tant en termes de mAP par image que par vidéo.