HyperAIHyperAI
il y a 2 mois

Apprentissage de la similarité vidéo auto-supervisé

Giorgos Kordopatis-Zilos; Giorgos Tolias; Christos Tzelepis; Ioannis Kompatsiaris; Ioannis Patras; Symeon Papadopoulos
Apprentissage de la similarité vidéo auto-supervisé
Résumé

Nous présentons S$^2$VS, une approche d'apprentissage de similarité vidéo basée sur l'auto-supervision. L'apprentissage auto-supervisé (SSL) est généralement utilisé pour entraîner des modèles profonds sur une tâche de substitution afin qu'ils possèdent une forte transférabilité sur les tâches cibles après un ajustement fin. Ici, contrairement aux travaux antérieurs, le SSL est utilisé pour effectuer l'apprentissage de similarité vidéo et aborder simultanément plusieurs tâches de recherche et de détection sans utiliser de données étiquetées. Cela est réalisé en apprenant par discrimination d'instances avec des augmentations adaptées à la tâche et la perte InfoNCE largement utilisée, associée à une perte supplémentaire opérant conjointement sur la similarité auto et la similarité des négatifs difficiles. Nous évaluons notre méthode sur des tâches où la pertinence vidéo est définie avec différentes granularités, allant des copies vidéo aux vidéos représentant le même incident ou événement. Nous apprenons un seul modèle universel qui atteint des performances d'état de l'art sur toutes les tâches, surpassant les méthodes précédemment proposées qui utilisent des données étiquetées. Le code source et les modèles pré-entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/gkordo/s2vs