HyperAIHyperAI
il y a 15 jours

Les convolutions temporelles sont-elles vraiment nécessaires pour la segmentation des actions ?

Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan
Les convolutions temporelles sont-elles vraiment nécessaires pour la segmentation des actions ?
Résumé

La classification des actions a connu des progrès considérables, mais la segmentation et la reconnaissance des actions dans des vidéos longues non tronquées restent des problèmes complexes. La plupart des méthodes de pointe se concentrent sur la conception de modèles basés sur des convolutions temporelles, mais l’insuffisance de flexibilité de ces dernières ainsi que les difficultés à modéliser les dépendances temporelles à long terme limitent leur potentiel. Les modèles fondés sur les Transformers, dotés d’une capacité d’adaptation et de modélisation séquentielle, ont récemment été appliqués à diverses tâches. Toutefois, le manque de biais inductif et l’inefficacité dans la gestion des séquences vidéo longues entravent leur utilisation dans la segmentation d’actions. Dans cet article, nous proposons un modèle purement basé sur les Transformers, sans convolution temporelle, en intégrant un échantillonnage temporel, appelé Temporal U-Transformer (TUT). L’architecture U-Transformer réduit la complexité tout en introduisant un biais inductif selon lequel des cadres adjacents sont plus susceptibles d’appartenir à la même classe. Toutefois, l’introduction de résolutions grossières entraîne une mauvaise classification des frontières. Nous observons que la distribution de similarité entre un cadre frontière et ses cadres voisins dépend de savoir si ce cadre est le début ou la fin d’un segment d’action. En conséquence, nous proposons une fonction de perte orientée vers les frontières, fondée sur la distribution des scores de similarité extraits des modules d’attention, afin d’améliorer la capacité de reconnaissance des frontières. Des expériences étendues démontrent l’efficacité de notre modèle.

Les convolutions temporelles sont-elles vraiment nécessaires pour la segmentation des actions ? | Articles de recherche récents | HyperAI