HyperAIHyperAI

Command Palette

Search for a command to run...

MS-TCT : ConvTransformer temporel multi-échelle pour la détection d'actions

Rui Dai Srijan Das Kumara Kahatapitiya Michael S. Ryoo Francois Bremond

Résumé

La détection d’actions est une tâche essentielle et complexe, particulièrement pour les jeux de données à étiquetage dense de vidéos non tronquées. Les relations temporelles dans ces jeux de données sont complexes, incluant des défis tels que les actions composites et les actions co-occurentes. Pour détecter efficacement les actions dans ces vidéos complexes, il est crucial de capturer à la fois les informations temporelles à court et à long terme. À cet effet, nous proposons un nouveau réseau ConvTransformer pour la détection d’actions. Ce réseau comporte trois composants principaux : (1) un module d’encodeur temporel qui explore de manière approfondie les relations temporelles globales et locales à plusieurs résolutions temporelles ; (2) un module de mélangeur d’échelle temporelle qui fusionne efficacement les caractéristiques multi-échelles pour obtenir une représentation unifiée ; (3) un module de classification permettant d’apprendre la position relative par rapport au centre de l’instance et de prédire les scores de classification au niveau des trames. Des expériences étendues sur plusieurs jeux de données, notamment Charades, TSU et MultiTHUMOS, confirment l’efficacité de la méthode proposée. Notre réseau surpasser les méthodes de pointe sur les trois jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp