HyperAIHyperAI
il y a 11 jours

Détection d’actions temporelles sans proposition par apprentissage masque de segmentation globale

Sauradip Nag, Xiatian Zhu, Yi-Zhe Song, Tao Xiang
Détection d’actions temporelles sans proposition par apprentissage masque de segmentation globale
Résumé

Les méthodes existantes de détection d’actions temporelles (TAD) reposent sur la génération d’un nombre massivement élevé de propositions par vidéo. Cela entraîne des architectures de modèles complexes, dues à la génération de propositions et/ou à l’évaluation de chaque proposition en tant qu’instance d’action, ainsi qu’un coût computationnel élevé. Dans ce travail, pour la première fois, nous proposons un modèle de détection d’actions temporelles sans propositions, appelé TAGS (Temporal Action detection with Global Segmentation mask). Notre idée centrale consiste à apprendre, de manière conjointe sur toute la durée de la vidéo, un masque de segmentation global pour chaque instance d’action. Contrairement aux méthodes classiques basées sur les propositions, le modèle TAGS se concentre sur l’apprentissage de représentations temporelles globales afin de détecter directement les points de début et de fin locaux des instances d’action, sans avoir recours à des propositions. En outre, en modélisant la TAD de manière holistique plutôt que de manière locale au niveau de chaque proposition individuelle, TAGS nécessite une architecture de modèle bien plus simple et un coût computationnel réduit. Des expériences étendues montrent que, malgré sa conception simplifiée, TAGS surpasser les méthodes existantes de TAD, atteignant de nouveaux records sur deux benchmarks. Notamment, il est environ 20 fois plus rapide à entraîner et environ 1,6 fois plus efficace en phase d’inférence. Notre implémentation en PyTorch de TAGS est disponible à l’adresse suivante : https://github.com/sauradip/TAGS.

Détection d’actions temporelles sans proposition par apprentissage masque de segmentation globale | Articles de recherche récents | HyperAI