WOAD : Détection d'Actions en Ligne Faiblement Supervisée dans des Vidéos Non Tronquées

La détection en ligne d'actions dans des vidéos non coupées vise à identifier une action au fur et à mesure qu'elle se produit, ce qui la rend très importante pour les applications en temps réel. Les méthodes précédentes dépendent d'annotations fastidieuses des limites temporelles des actions pour l'entraînement, ce qui entrave l'évolutivité des systèmes de détection en ligne d'actions. Nous proposons WOAD, un cadre de supervision faible qui peut être entraîné uniquement avec des étiquettes de classe vidéo. WOAD comprend deux modules entraînés conjointement, à savoir le générateur de propositions temporelles (TPG) et le reconnaisseur en ligne d'actions (OAR). Supervisé par les étiquettes de classe vidéo, le TPG fonctionne hors ligne et vise à extraire précisément des étiquettes pseudo-frame pour l'OAR. Grâce aux signaux de supervision du TPG, l'OAR apprend à effectuer la détection d'actions de manière en ligne. Les résultats expérimentaux sur THUMOS'14, ActivityNet1.2 et ActivityNet1.3 montrent que notre méthode de supervision faible surpasse largement les baselines de supervision faible et atteint des performances comparables aux méthodes précédemment supervisées fortement. De plus, WOAD est flexible pour exploiter une supervision forte lorsque celle-ci est disponible. Lorsqu'il est fortement supervisé, notre méthode obtient des résultats d'état de l'art dans les tâches de reconnaissance en ligne d'actions par frame et de détection en ligne du début d'une action.