HyperAIHyperAI
il y a 13 jours

Localisation d'actions par apprentissage faiblement supervisé basée sur une modélisation attentionnelle générative

Baifeng Shi, Qi Dai, Yadong Mu, Jingdong Wang
Localisation d'actions par apprentissage faiblement supervisé basée sur une modélisation attentionnelle générative
Résumé

La localisation temporelle d’actions à supervision faible est un problème consistant à apprendre un modèle de localisation d’actions en ne disposant que d’étiquettes au niveau des vidéos. Le cadre général repose largement sur l’activation de classification, qui utilise un modèle d’attention pour identifier les trames liées à une action, puis les catégorise selon différentes classes. Cette approche donne lieu au problème de confusion entre action et contexte : les trames contextuelles situées à proximité des segments d’action ont tendance à être elles-mêmes classées comme trames d’action, en raison de leur forte corrélation avec les classes spécifiques. Pour résoudre ce problème, nous proposons dans cet article de modéliser la probabilité par trame, indépendante de la classe, conditionnellement à l’attention des trames, à l’aide d’un Auto-Encodeur Variationnel conditionnel (conditional VAE). En s’appuyant sur l’observation selon laquelle le contexte présente une différence notable par rapport à l’action au niveau des représentations, un modèle probabiliste, à savoir un VAE conditionnel, est appris afin de modéliser la probabilité de chaque trame étant donné l’attention. En maximisant cette probabilité conditionnelle par rapport à l’attention, les trames d’action et les trames non d’action sont efficacement séparées. Des expériences menées sur les jeux de données THUMOS14 et ActivityNet1.2 démontrent l’avantage de notre méthode ainsi que son efficacité pour traiter le problème de confusion action-contexte. Le code est désormais disponible sur GitHub.