HyperAIHyperAI

Command Palette

Search for a command to run...

Les convolutions temporelles sont-elles vraiment nécessaires pour la segmentation des actions ?

Dazhao Du Bing Su Yu Li Zhongang Qi Lingyu Si Ying Shan

Résumé

La classification des actions a connu des progrès considérables, mais la segmentation et la reconnaissance des actions dans des vidéos longues non tronquées restent des problèmes complexes. La plupart des méthodes de pointe se concentrent sur la conception de modèles basés sur des convolutions temporelles, mais l’insuffisance de flexibilité de ces dernières ainsi que les difficultés à modéliser les dépendances temporelles à long terme limitent leur potentiel. Les modèles fondés sur les Transformers, dotés d’une capacité d’adaptation et de modélisation séquentielle, ont récemment été appliqués à diverses tâches. Toutefois, le manque de biais inductif et l’inefficacité dans la gestion des séquences vidéo longues entravent leur utilisation dans la segmentation d’actions. Dans cet article, nous proposons un modèle purement basé sur les Transformers, sans convolution temporelle, en intégrant un échantillonnage temporel, appelé Temporal U-Transformer (TUT). L’architecture U-Transformer réduit la complexité tout en introduisant un biais inductif selon lequel des cadres adjacents sont plus susceptibles d’appartenir à la même classe. Toutefois, l’introduction de résolutions grossières entraîne une mauvaise classification des frontières. Nous observons que la distribution de similarité entre un cadre frontière et ses cadres voisins dépend de savoir si ce cadre est le début ou la fin d’un segment d’action. En conséquence, nous proposons une fonction de perte orientée vers les frontières, fondée sur la distribution des scores de similarité extraits des modules d’attention, afin d’améliorer la capacité de reconnaissance des frontières. Des expériences étendues démontrent l’efficacité de notre modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp