HyperAIHyperAI
il y a 11 jours

Apprentissage sémantique multilével et actionness adaptatif pour la localisation temporelle d’actions sous supervision faible

{Cerui Dong, Zilei Wang, Zhilin Li}
Résumé

La localisation temporelle d’actions faiblement supervisée vise à identifier et localiser les instances d’actions dans des vidéos non segmentées, en ne disposant que d’étiquettes au niveau de la vidéo. En général, la plupart des méthodes reposent sur un cadre d’apprentissage par instances multiples (Multiple Instance Learning) qui utilise une stratégie top-K pour sélectionner des segments saillants représentatifs de l’ensemble de la vidéo. Cette approche limite l’apprentissage d’informations vidéo à un niveau fin, entraînant des performances médiocres en classification et localisation d’actions. Dans ce travail, nous proposons un réseau d’apprentissage multilayers de sémantique et d’actionness adaptatif, appelé SAL (Multilevel Semantic and Adaptive Actionness Learning Network). Ce réseau se compose principalement de deux branches : une branche d’apprentissage sémantique multilayers (MSL) et une branche d’apprentissage d’actionness adaptatif (AAL). La branche MSL introduit des sémantiques vidéo du second ordre, capables de capturer des informations fines à l’intérieur des vidéos et d’améliorer la performance de classification au niveau de la vidéo. Par ailleurs, nous propageons ces sémantiques du second ordre aux segments d’actions afin d’accentuer la discrimination entre différentes actions. La branche AAL utilise des pseudo-étiquettes pour apprendre des informations d’action indépendantes des classes. Elle intègre une stratégie de mix-up des segments vidéo pour renforcer la capacité de généralisation du premier plan, et ajoute un masque d’actionness adaptatif afin d’équilibrer la qualité et la quantité des pseudo-étiquettes, améliorant ainsi la stabilité de l’entraînement. Des expériences étendues montrent que SAL atteint des résultats de pointe sur trois benchmarks. Code : https://github.com/lizhilin-ustc/SAL

Apprentissage sémantique multilével et actionness adaptatif pour la localisation temporelle d’actions sous supervision faible | Articles de recherche récents | HyperAI