Échantillons Négatifs Importants : Une Renaissance de l'Apprentissage par Métrique pour le Positionnement Temporel

L'ancrage temporel vise à localiser un moment vidéo qui est sémantiquement aligné avec une requête en langage naturel donnée. Les méthodes existantes appliquent généralement un pipeline de détection ou de régression sur la représentation fusionnée, avec un accent mis sur la conception de têtes de prédiction complexes ou de stratégies de fusion. À la place, en considérant l'ancrage temporel comme un problème d'apprentissage par métrique, nous présentons un Réseau de Correspondance Mutuelle (Mutual Matching Network - MMN) pour modéliser directement la similarité entre les requêtes linguistiques et les moments vidéo dans un espace d'embedding conjoint. Ce nouveau cadre d'apprentissage par métrique permet d'exploiter pleinement les échantillons négatifs sous deux nouveaux angles : la construction de paires inter-modales négatives dans un schéma de correspondance mutuelle et l'extraction de paires négatives à travers différentes vidéos. Ces nouveaux échantillons négatifs peuvent améliorer l'apprentissage des représentations conjointes des deux modalités en maximisant leur information mutuelle grâce à la correspondance mutuelle inter-modale. Les expériences montrent que notre MMN atteint des performances hautement compétitives par rapport aux méthodes les plus avancées sur quatre benchmarks d'ancrage vidéo. Sur la base du MMN, nous présentons une solution gagnante pour le défi HC-STVG du 3ème atelier PIC. Cela suggère que l'apprentissage par métrique reste une méthode prometteuse pour l'ancrage temporel en capturant la corrélation inter-modale essentielle dans un espace d'embedding conjoint. Le code est disponible à l'adresse suivante : https://github.com/MCG-NJU/MMN.