HyperAIHyperAI
il y a 2 mois

Apprentissage par apprentissage à partir de propositions pour la localisation temporelle d'actions faiblement supervisée

Huan Ren; Wenfei Yang; Tianzhu Zhang; Yongdong Zhang
Apprentissage par apprentissage à partir de propositions pour la localisation temporelle d'actions faiblement supervisée
Résumé

La localisation temporelle d'actions faiblement supervisée vise à localiser et reconnaître des actions dans des vidéos non tronquées en utilisant uniquement des étiquettes de catégories au niveau de la vidéo pendant l'entraînement. En l'absence d'annotations au niveau des instances, la plupart des méthodes existantes suivent le cadre d'apprentissage par multiples instances basé sur les segments (S-MIL), où les prédictions des segments sont supervisées par les étiquettes des vidéos. Cependant, l'objectif d'obtention de scores au niveau des segments pendant l'entraînement n'est pas cohérent avec celui d'obtention de scores au niveau des propositions pendant les tests, ce qui entraîne des résultats sous-optimaux. Pour résoudre ce problème, nous proposons un nouveau cadre d'apprentissage par multiples instances basé sur les propositions (P-MIL) qui classe directement les propositions candidates à la fois pendant les phases d'entraînement et de test. Ce cadre comprend trois conceptions clés : 1) un module d'extraction de caractéristiques contrastives environnantes pour réduire l'influence des propositions courtes discriminantes en prenant en compte les informations contrastives environnantes, 2) un module d'évaluation de la complétude des propositions pour inhiber les propositions de faible qualité grâce aux étiquettes pseudo-complètes, et 3) une perte de cohérence du rang au niveau des instances pour obtenir une détection robuste en exploitant le complémentarité des modalités RGB et FLOW. Des résultats expérimentaux approfondis sur deux benchmarks difficiles, THUMOS14 et ActivityNet, démontrent la supériorité de notre méthode.

Apprentissage par apprentissage à partir de propositions pour la localisation temporelle d'actions faiblement supervisée | Articles de recherche récents | HyperAI