Réseaux à deux flux pour la localisation temporelle d’actions faiblement supervisée avec des mécanismes sensibles au sens

La localisation temporelle d’actions sous supervision faible vise à détecter les frontières d’actions dans des vidéos non tronquées à l’aide uniquement d’étiquettes au niveau de la vidéo. La plupart des approches existantes identifient les régions temporelles les plus réactives à la classification au niveau de la vidéo, mais elles négligent la cohérence sémantique entre les trames. Dans cet article, nous proposons l’hypothèse selon laquelle des extraits (snippets) présentant des représentations similaires doivent être considérés comme appartenant à la même catégorie d’action, même en l’absence de signaux de supervision sur chaque snippet. À cette fin, nous proposons un dictionnaire apprenable dont les entrées correspondent aux centroïdes de classe des différentes catégories d’actions. Les représentations des snippets attribués à la même catégorie d’action sont ainsi pousées à se rapprocher du même centroïde de classe, ce qui guide le réseau à mieux percevoir la sémantique des trames et à éviter des localisations irréalistes. Par ailleurs, nous introduisons un cadre à deux voies qui intègre mécanisme d’attention et stratégie d’apprentissage multi-exemples afin d’extraire respectivement des indices fins et des caractéristiques saillantes. Leur complémentarité permet au modèle d’affiner les frontières temporelles. Enfin, le modèle proposé est validé sur les jeux de données publics THUMOS-14 et ActivityNet-1.3, où des expérimentations étendues et des analyses détaillées démontrent que notre approche atteint des performances nettement supérieures aux méthodes existantes.