LAMV : Apprendre à aligner et à matcher des vidéos à l’aide de couches temporelles à noyau

Cet article propose une approche apprenable pour comparer et aligner des vidéos. Notre architecture s’appuie sur et reconsidère les noyaux d’alignement temporel au sein des réseaux neuronaux : nous introduisons une nouvelle couche temporelle qui établit l’alignement temporel en maximisant les scores entre deux séquences de vecteurs, selon une métrique de similarité sensible au temps paramétrée dans le domaine de Fourier. Cette couche est apprise grâce à une stratégie de proposition temporelle, dans laquelle nous minimisons une perte de triplet tenant compte à la fois de la précision de localisation et du taux de reconnaissance. Nous évaluons notre approche sur des tâches d’alignement vidéo, de détection de copies vidéo et de recherche d’événements. Nos résultats surpassent l’état de l’art sur les jeux de données d’alignement temporel vidéo et de détection de copies vidéo, dans des configurations comparables. De plus, nous obtenons les meilleurs résultats rapportés pour certaines tâches de recherche d’événements, tout en assurant un alignement précis des vidéos.