Réseau de Régression Dense pour l'Ancrage Vidéo

Nous abordons le problème de l'ancrage vidéo à partir de requêtes en langage naturel. Le défi majeur dans cette tâche réside dans le fait qu'une vidéo d'entraînement peut ne contenir que quelques cadres annotés de début/fin qui peuvent être utilisés comme exemples positifs pour l'entraînement du modèle. La plupart des approches conventionnelles entraînent directement un classifieur binaire à l'aide de ces données déséquilibrées, ce qui conduit à des résultats médiocres. L'idée clé de cet article est d'utiliser les distances entre les cadres situés dans la vérité terrain et les cadres de début (fin) comme supervisions denses pour améliorer la précision de l'ancrage vidéo. Plus précisément, nous concevons un nouveau réseau de régression dense (DRN) pour estimer les distances entre chaque cadre et le cadre de début (fin) du segment vidéo décrit par la requête. Nous proposons également un module simple mais efficace de tête de régression IoU pour prendre explicitement en compte la qualité de localisation des résultats d'ancrage (c'est-à-dire, l'IoU entre l'emplacement prédit et la vérité terrain). Les résultats expérimentaux montrent que notre approche surpasse significativement les méthodes actuelles sur trois jeux de données (à savoir, Charades-STA, ActivityNet-Captions et TACoS).