Réseau de consensus à deux flux pour la localisation temporelle d’actions sous supervision faible

La Localisation Temporelle d’Actions Faiblement Supervisée (W-TAL) vise à classifier et localiser toutes les instances d’actions dans une vidéo non-trimée, sous une simple supervision au niveau de la vidéo. Toutefois, en l’absence d’étiquettes au niveau des trames, il est difficile pour les méthodes W-TAL d’identifier les propositions d’actions faussement positives et de générer des propositions d’actions avec des bornes temporelles précises. Dans cet article, nous proposons un Réseau de Consensus à Deux Flux (TSCN) pour traiter simultanément ces défis. Le TSCN proposé intègre une méthode d’entraînement par réaffinement itératif, au cours de laquelle une vérité terrain pseudo au niveau des trames est mise à jour itérativement et utilisée pour fournir une supervision au niveau des trames, améliorant ainsi l’entraînement du modèle et permettant l’élimination des propositions d’actions faussement positives. En outre, nous introduisons une nouvelle fonction de perte de normalisation d’attention, visant à inciter l’attention prédite à se comporter comme une sélection binaire, favorisant ainsi une localisation précise des frontières des instances d’actions. Des expériences menées sur les jeux de données THUMOS14 et ActivityNet montrent que le TSCN proposé dépasse les méthodes actuelles de l’état de l’art, et atteint même des résultats comparables à certains méthodes récentes entièrement supervisées.