HyperAIHyperAI
il y a 11 jours

PivoTAL : Supervision guidée par priori pour la localisation temporelle d'actions en supervision faible

{Mei Chen, Mubarak Shah, Sandra Sajeev, Matthew Hall, Ye Yu, Gaurav Mittal, Mamshad Nayeem Rizve}
PivoTAL : Supervision guidée par priori pour la localisation temporelle d'actions en supervision faible
Résumé

La localisation temporelle d’actions faiblement supervisée (WTAL) vise à localiser les actions dans des vidéos non coupées en ne disposant que d’une supervision au niveau de la vidéo. La plupart des travaux récents abordent la WTAL sous l’angle de la localisation par classification, où ces méthodes cherchent à classer chaque trame de vidéo, suivie d’un pipeline post-traitement manuellement conçu pour agréger les prédictions d’action par trame en segments d’actions. En raison de cette approche, le modèle ne possède aucune compréhension explicite des frontières des actions et a tendance à se concentrer uniquement sur les parties les plus discriminantes de la vidéo, conduisant à une localisation incomplète des actions. Pour remédier à ce problème, nous proposons PivoTAL, une supervision pilotée par priori pour la localisation temporelle d’actions faiblement supervisée, qui aborde la WTAL sous l’angle de la localisation par localisation, en apprenant directement à localiser les segments d’actions. À cette fin, PivoTAL exploite les régularités spatio-temporelles intrinsèques des vidéos sous la forme de priori scéniques spécifiques à l’action, de priori de génération de segments d’action, ainsi que d’un prior Gaussien apprenable, afin de superviser l’entraînement basé sur la localisation. PivoTAL obtient une amélioration significative (d’au moins 3 % en moyenne de mAP) par rapport à toutes les méthodes existantes sur les jeux de données de référence THUMOS-14 et ActivityNet-v1.3.

PivoTAL : Supervision guidée par priori pour la localisation temporelle d'actions en supervision faible | Articles de recherche récents | HyperAI