HyperAIHyperAI
il y a 16 jours

Apprentissage contrastif guidé par l'incohérence d'action pour la localisation temporelle d'actions faiblement supervisée

{Qinying Liu, Zilei Wang, Zhilin Li}
Résumé

La localisation temporelle d’actions faiblement supervisée (WTAL) vise à détecter les instances d’actions à partir uniquement d’étiquettes au niveau des vidéos. Pour relever ce défi, les méthodes récentes emploient fréquemment un cadre à deux branches, composé d’une branche sensible aux classes et d’une branche insensible aux classes. En principe, ces deux branches devraient produire des activations d’action similaires. Toutefois, nous observons qu’il existe en réalité de nombreuses régions d’activation incohérentes. Ces régions incohérentes contiennent généralement des segments difficiles dont l’information sémantique (action ou fond) est ambiguë. Dans ce travail, nous proposons une nouvelle méthode, appelée apprentissage contrastif guidé par l’incohérence d’action (AICL), qui exploite les segments cohérents pour améliorer l’apprentissage des représentations des segments incohérents. Plus précisément, nous définissons d’abord les segments cohérents et incohérents en comparant les prédictions des deux branches, puis nous construisons des paires positives et négatives entre les segments cohérents et les segments incohérents afin de réaliser un apprentissage contrastif. En outre, afin d’éviter le cas trivial où aucun échantillon cohérent n’existe, nous introduisons une contrainte de cohérence d’action pour limiter la différence entre les deux branches. Nous menons des expériences étendues sur les jeux de données THUMOS14, ActivityNet v1.2 et ActivityNet v1.3, et les résultats démontrent l’efficacité de AICL, atteignant des performances de pointe. Notre code est disponible à l’adresse suivante : https://github.com/lizhilin-ustc/AAAI2023-AICL.