Grounding temporel de phrases faiblement supervisé avec apprentissage contrastif des propositions basé sur une distribution gaussienne

Le repérage temporel de phrases vise à détecter le moment le plus pertinent correspondant à une requête en langage naturel à partir de vidéos non coupées. Étant donné que l’étiquetage des bornes temporelles est fastidieux et subjectif, les méthodes faiblement supervisées ont récemment suscité un intérêt croissant. La plupart des méthodes existantes à faible supervision génèrent des propositions par glissement de fenêtres, qui sont indépendantes du contenu et de qualité médiocre. En outre, elles entraînent leur modèle à distinguer les paires visuelles-langage positives des négatives, aléatoirement collectées à partir d’autres vidéos, négligeant ainsi les segments vidéo fortement confus présents au sein de la même vidéo. Dans cet article, nous proposons une méthode appelée Apprentissage par contraste de propositions (Contrastive Proposal Learning, CPL) afin de surmonter ces limitations. Plus précisément, nous utilisons plusieurs fonctions gaussiennes apprenables pour générer à la fois des propositions positives et négatives au sein de la même vidéo, permettant ainsi de caractériser les multiples événements présents dans une vidéo longue. Ensuite, nous introduisons une stratégie contrôlable d’extraction de propositions négatives de difficulté croissante (easy to hard negative proposal mining), qui permet de collecter des exemples négatifs au sein de la même vidéo, facilitant ainsi l’optimisation du modèle et permettant à CPL de distinguer efficacement des scènes fortement ambiguës. Les expériences montrent que notre méthode atteint des performances de pointe sur les jeux de données Charades-STA et ActivityNet Captions. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/minghangz/cpl.