HyperAIHyperAI
il y a 2 mois

Réseaux SlowFast pour la reconnaissance vidéo

Christoph Feichtenhofer; Haoqi Fan; Jitendra Malik; Kaiming He
Réseaux SlowFast pour la reconnaissance vidéo
Résumé

Nous présentons les réseaux SlowFast pour la reconnaissance vidéo. Notre modèle comprend (i) une voie Lente, fonctionnant à un faible taux d'images par seconde, pour capturer les sémantiques spatiales, et (ii) une voie Rapide, fonctionnant à un haut taux d'images par seconde, pour capturer le mouvement avec une résolution temporelle fine. La voie Rapide peut être rendue très légère en réduisant sa capacité de canaux, tout en étant capable d'apprendre des informations temporelles utiles pour la reconnaissance vidéo. Nos modèles obtiennent de solides performances tant pour la classification que pour la détection d'actions dans les vidéos, et de grandes améliorations sont attribuées aux contributions de notre concept SlowFast. Nous rapportons des résultats d'une précision sans égale sur les principaux benchmarks de reconnaissance vidéo, tels que Kinetics, Charades et AVA. Le code est disponible à l'adresse suivante : https://github.com/facebookresearch/SlowFast