HyperAIHyperAI
il y a 11 jours

TadML : Détection rapide d'actions temporelles basée sur Mechanics-MLP

Bowen Deng, Dongchang Liu
TadML : Détection rapide d'actions temporelles basée sur Mechanics-MLP
Résumé

La détection d’actions temporelles (Temporal Action Detection, TAD) est une tâche cruciale mais difficile dans le domaine du traitement vidéo. Son objectif consiste à détecter, dans une vidéo longue et non coupée, à la fois le type d’action et ses cadres de début et de fin pour chaque instance d’action. La plupart des modèles actuels adoptent à la fois des flux RGB et optiques (Optical-Flow) pour cette tâche. Par conséquent, les cadres d’image RGB originaux doivent être convertis manuellement en cadres de flux optique, ce qui entraîne un coût computationnel supplémentaire et un délai important, constituant un obstacle majeur à un traitement en temps réel. Actuellement, de nombreux modèles reposent sur des stratégies à deux étapes, ce qui ralentit considérablement la vitesse d’inférence et complique la calibration des propositions générées. À l’inverse, nous proposons une méthode de localisation temporelle à une seule étape, sans point d’ancrage (anchor-free), basée uniquement sur le flux RGB, dans laquelle nous introduisons une architecture originale baptisée Newtonian Mechanics-MLP. Cette approche atteint une précision comparable à celle de tous les modèles d’état de l’art existants, tout en surpassant largement leur vitesse d’inférence. La vitesse d’inférence typique atteinte dans ce travail est impressionnante : 4,44 vidéos par seconde sur le jeu de données THUMOS14. Dans les applications pratiques, puisqu’il n’est plus nécessaire de convertir le flux optique, la vitesse d’inférence sera encore plus élevée. Ce travail démontre également le grand potentiel des réseaux de type MLP pour des tâches à la suite comme la TAD. Le code source est disponible à l’adresse suivante : https://github.com/BonedDeng/TadML

TadML : Détection rapide d'actions temporelles basée sur Mechanics-MLP | Articles de recherche récents | HyperAI