Command Palette
Search for a command to run...
Pré-entraînement auto-supervisé faiblement guidé pour la détection d'activités temporelles
Pré-entraînement auto-supervisé faiblement guidé pour la détection d'activités temporelles
Kumara Kahatapitiya Zhou Ren Haoxiang Li Zhenyu Wu Michael S. Ryoo Gang Hua
Résumé
La détection d'activités temporelles vise à prédire les classes d'activités par trame, contrairement aux prédictions au niveau de la vidéo dans la classification d'activités (c’est-à-dire la reconnaissance d'activités). En raison du coût élevé des annotations au niveau des trames nécessaires pour la détection, la taille des jeux de données de détection reste limitée. Par conséquent, les travaux antérieurs sur la détection d'activités temporelles recourent généralement au fine-tuning d’un modèle de classification préentraîné sur de grands jeux de données de classification (par exemple, Kinetics-400). Toutefois, de tels modèles préentraînés ne sont pas idéaux pour la tâche de détection en amont, en raison de l’écart entre les tâches de préentraînement et celles de fine-tuning en aval. Dans ce travail, nous proposons une nouvelle méthode de préentraînement « auto-supervisée guidée par des données faibles » pour la détection. Nous exploitons des étiquettes faibles (classification) pour introduire une tâche d’auto-supervision (détection) en générant des pseudo-étiquettes au niveau des trames, des trames multi-actions et des segments d’actions. En d’autres termes, nous concevons une tâche de détection similaire à celle de la tâche en aval, sur des données de classification à grande échelle, sans nécessiter d’étiquettes supplémentaires. Nous montrons que les modèles préentraînés avec la tâche de détection auto-supervisée guidée par des données faibles surpassent les approches antérieures sur plusieurs benchmarks exigeants de détection d'activités, notamment Charades et MultiTHUMOS. Nos ablations étendues offrent également des perspectives sur les conditions et les modalités d’utilisation optimales de ces modèles pour la détection d'activités. Le code est disponible à l’adresse suivante : https://github.com/kkahatapitiya/SSDet.