Actions en tant que points mobiles

Les détecteurs de tubelets d’action existants dépendent souvent d’une conception heuristique et d’un positionnement d’ancres (anchors), ce qui peut s’avérer coûteux en termes de calcul et sous-optimal pour une localisation précise. Dans ce travail, nous proposons un cadre conceptuellement simple, efficace sur le plan computationnel et plus précis pour la détection de tubelets d’action, appelé MovingCenter Detector (MOC-detector), en traitant chaque instance d’action comme une trajectoire de points en mouvement. Inspirés de l’idée que l’information de mouvement peut simplifier et faciliter la détection de tubelets d’action, notre MOC-detector se compose de trois branches essentielles : (1) une branche Center pour la détection du centre de l’instance et la reconnaissance d’action, (2) une branche Movement pour l’estimation du mouvement entre cadres adjacents, permettant ainsi de former des trajectoires de points en mouvement, et (3) une branche Box pour la détection de l’étendue spatiale en régressant directement la taille de la boîte englobante à partir de chaque centre estimé. Ces trois branches coopèrent pour générer les résultats de détection de tubelets, qui peuvent ensuite être associés par une stratégie de correspondance afin d’obtenir des tubes au niveau vidéo. Le MOC-detector surpasser les méthodes de pointe existantes sur les métriques de frame-mAP et video-mAP sur les jeux de données JHMDB et UCF101-24. L’écart de performance est particulièrement marqué pour des seuils de IoU vidéo plus élevés, ce qui démontre que notre méthode est particulièrement efficace pour la détection précise des actions. Le code source est disponible à l’adresse suivante : https://github.com/MCG-NJU/MOC-Detector.