HyperAIHyperAI
il y a 11 jours

MS-TCT : ConvTransformer temporel multi-échelle pour la détection d'actions

Rui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, Francois Bremond
MS-TCT : ConvTransformer temporel multi-échelle pour la détection d'actions
Résumé

La détection d’actions est une tâche essentielle et complexe, particulièrement pour les jeux de données à étiquetage dense de vidéos non tronquées. Les relations temporelles dans ces jeux de données sont complexes, incluant des défis tels que les actions composites et les actions co-occurentes. Pour détecter efficacement les actions dans ces vidéos complexes, il est crucial de capturer à la fois les informations temporelles à court et à long terme. À cet effet, nous proposons un nouveau réseau ConvTransformer pour la détection d’actions. Ce réseau comporte trois composants principaux : (1) un module d’encodeur temporel qui explore de manière approfondie les relations temporelles globales et locales à plusieurs résolutions temporelles ; (2) un module de mélangeur d’échelle temporelle qui fusionne efficacement les caractéristiques multi-échelles pour obtenir une représentation unifiée ; (3) un module de classification permettant d’apprendre la position relative par rapport au centre de l’instance et de prédire les scores de classification au niveau des trames. Des expériences étendues sur plusieurs jeux de données, notamment Charades, TSU et MultiTHUMOS, confirment l’efficacité de la méthode proposée. Notre réseau surpasser les méthodes de pointe sur les trois jeux de données.

MS-TCT : ConvTransformer temporel multi-échelle pour la détection d'actions | Articles de recherche récents | HyperAI