BMN : Réseau de correspondance des frontières pour la génération de propositions d'actions temporelles

La génération de propositions d'actions temporelles est une tâche prometteuse et complexe qui vise à localiser les régions temporelles dans des vidéos réelles où une action ou un événement peut se produire. Les méthodes actuelles de génération de propositions basées sur une approche ascendante peuvent générer des propositions avec des frontières précises, mais ne parviennent pas à générer efficacement des scores de confiance suffisamment fiables pour la récupération de ces propositions. Pour résoudre ces difficultés, nous introduisons le mécanisme de Correspondance de Frontières (Boundary-Matching, BM) pour évaluer les scores de confiance des propositions densément distribuées. Ce mécanisme considère une proposition comme un couple correspondant de frontières de début et de fin, et combine tous les couples BM densément distribués dans une carte de confiance BM. Sur la base du mécanisme BM, nous proposons une méthode de génération de propositions efficace, performante et intégrée, appelée Réseau de Correspondance de Frontières (Boundary-Matching Network, BMN), qui génère simultanément des propositions avec des frontières temporelles précises ainsi que des scores de confiance fiables. Les deux branches du BMN sont formées conjointement dans un cadre unifié. Nous menons des expériences sur deux ensembles de données complexes : THUMOS-14 et ActivityNet-1.3, où le BMN montre une amélioration significative des performances avec une efficacité remarquable et une généralisabilité importante. De plus, combiné à un classifieur d'actions existant, le BMN peut atteindre des performances d'évaluation d'actions temporelles parmi les meilleures au monde (state-of-the-art).