Réseaux Non Taillés pour la Reconnaissance et la Détection d'Actions Faiblement Supervisées

Les méthodes actuelles de reconnaissance d'actions s'appuient fortement sur des vidéos tronquées pour l'entraînement des modèles. Cependant, l'acquisition d'un grand ensemble de données de vidéos tronquées est coûteuse et chronophage. Cet article présente une nouvelle architecture faiblement supervisée, appelée UntrimmedNet, capable d'apprendre directement des modèles de reconnaissance d'actions à partir de vidéos non tronquées sans nécessiter les annotations temporelles des instances d'action. Notre UntrimmedNet associe deux composants importants : le module de classification et le module de sélection, qui apprennent respectivement les modèles d'action et raisonnent sur la durée temporelle des instances d'action. Ces deux composants sont mis en œuvre avec des réseaux de propagation avant, ce qui fait d'UntrimmedNet une architecture entièrement entraînable. Nous utilisons les modèles appris pour la reconnaissance (WSR) et la détection (WSD) d'actions sur les ensembles de données de vidéos non tronquées THUMOS14 et ActivityNet. Bien que notre UntrimmedNet n'utilise qu'une supervision faible, notre méthode atteint des performances supérieures ou comparables à celles des approches fortement supervisées sur ces deux ensembles de données.