HyperAIHyperAI
il y a 2 mois

COMÉDIEN : Apprentissage auto-supervisé et distillation de connaissances pour la détection d'actions à l'aide de transformateurs

Denize, Julien ; Liashuha, Mykola ; Rabarisoa, Jaonary ; Orcesi, Astrid ; Hérault, Romain
COMÉDIEN : Apprentissage auto-supervisé et distillation de connaissances pour la détection d'actions à l'aide de transformateurs
Résumé

Nous présentons COMEDIAN, un nouveau pipeline pour l'initialisation de transformateurs spatio-temporels destinés à la détection d'actions, qui implique l'apprentissage auto-supervisé et le transfert de connaissances. La détection d'actions consiste en une tâche de détection temporelle d'actions au niveau des timestamps. Notre pipeline se compose de trois étapes, avec deux phases d'initialisation. Premièrement, nous effectuons l'initialisation auto-supervisée d'un transformateur spatial en utilisant des vidéos courtes comme entrée. De plus, nous initialisons un transformateur temporel qui améliore les sorties du transformateur spatial en y ajoutant un contexte global grâce au transfert de connaissances depuis une banque de caractéristiques pré-calculée alignée sur chaque segment de vidéo courte. Dans l'étape finale, nous ajustons finement les transformateurs à la tâche de détection d'actions. Les expériences menées sur le dataset SoccerNet-v2 montrent des performances de pointe et valident l'efficacité du paradigme d'pré-entraînement de COMEDIAN. Nos résultats mettent en lumière plusieurs avantages de notre pipeline d'pré-entraînement, notamment une meilleure performance et une convergence plus rapide par rapport aux modèles non pré-entraînés.

COMÉDIEN : Apprentissage auto-supervisé et distillation de connaissances pour la détection d'actions à l'aide de transformateurs | Articles de recherche récents | HyperAI