HyperAIHyperAI

Command Palette

Search for a command to run...

LAMV : Apprendre à aligner et à matcher des vidéos à l’aide de couches temporelles à noyau

Hervé Jégou Rita Cucchiara Matthijs Douze Lorenzo Baraldi

Résumé

Cet article propose une approche apprenable pour comparer et aligner des vidéos. Notre architecture s’appuie sur et reconsidère les noyaux d’alignement temporel au sein des réseaux neuronaux : nous introduisons une nouvelle couche temporelle qui établit l’alignement temporel en maximisant les scores entre deux séquences de vecteurs, selon une métrique de similarité sensible au temps paramétrée dans le domaine de Fourier. Cette couche est apprise grâce à une stratégie de proposition temporelle, dans laquelle nous minimisons une perte de triplet tenant compte à la fois de la précision de localisation et du taux de reconnaissance. Nous évaluons notre approche sur des tâches d’alignement vidéo, de détection de copies vidéo et de recherche d’événements. Nos résultats surpassent l’état de l’art sur les jeux de données d’alignement temporel vidéo et de détection de copies vidéo, dans des configurations comparables. De plus, nous obtenons les meilleurs résultats rapportés pour certaines tâches de recherche d’événements, tout en assurant un alignement précis des vidéos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp