BSN++ : Régresseur complémentaire de frontière avec un modèle de relation équilibré en échelle pour la génération de propositions d'actions temporelles

La génération de propositions d'actions humaines dans des vidéos non coupées est une tâche importante et difficile, avec de nombreuses applications. Les méthodes actuelles souffrent souvent de positions de frontières bruyantes et de la faible qualité des scores de confiance utilisés pour la récupération des propositions. Dans cet article, nous présentons BSN++, un nouveau cadre qui exploite les régresseurs de frontière complémentaires et la modélisation des relations pour la génération temporelle de propositions. Premièrement, nous proposons un nouveau régresseur de frontière basé sur les caractéristiques complémentaires des classifieurs de début et de fin de frontière. Plus précisément, nous utilisons une architecture en forme de U avec des connexions saute-mouton imbriquées pour capturer des contextes riches et introduisons un mécanisme d'appariement bidirectionnel des frontières afin d'améliorer la précision des frontières. Deuxièmement, pour tenir compte des relations entre les propositions ignorées dans les méthodes précédentes, nous avons conçu un bloc de relations entre les propositions qui comprend deux modules d'auto-attention sous l'angle de la position et du canal. En outre, nous constatons qu'il existe inévitablement des problèmes d'imbalance des données dans les propositions positives/négatives et les durées temporelles, ce qui nuit aux performances du modèle sur les distributions marginales. Pour atténuer cette question, nous introduisons une stratégie d'échantillonnage équilibrée par l'échelle. Des expériences approfondies ont été menées sur deux benchmarks populaires : ActivityNet-1.3 et THUMOS14, démontrant que BSN++ atteint des performances à l'état de l'art. Comme prévu, le BSN++ proposé a obtenu le premier rang au classement du défi ActivityNet lors du CVPR19 (Temporal Action Localization Task).