DnS : Distiller-et-sélectionner pour une indexation et une récupération vidéo efficaces et précises

Dans cet article, nous abordons le problème du traitement efficace et à haute performance de la recherche vidéo fondée sur le contenu dans des jeux de données à grande échelle. Les méthodes actuelles proposent généralement soit : (i) des approches à fine-grain, utilisant des représentations spatio-temporelles et des calculs de similarité, offrant une haute précision au prix d’un coût computationnel élevé, soit (ii) des approches à coarse-grain, représentant/indexant les vidéos par des vecteurs globaux, au détriment de la structure spatio-temporelle, ce qui entraîne une faible précision mais un coût computationnel réduit. Dans ce travail, nous proposons un cadre de distillation de connaissances, appelé Distill-and-Select (DnS), qui part d’un réseau enseignant performant à fine-grain pour apprendre : a) des réseaux élèves offrant différents compromis entre performance de recherche et efficacité computationnelle, et b) un réseau sélecteur qui, au moment de l’évaluation, oriente rapidement les échantillons vers l’élève approprié, afin de maintenir à la fois une haute performance de recherche et une haute efficacité computationnelle. Nous entraînons plusieurs élèves avec des architectures variées, aboutissant à différents compromis entre performance et efficacité — notamment en termes de vitesse et de besoins en stockage — incluant des élèves à fine-grain qui stockent/indexent les vidéos à l’aide de représentations binaires. De manière importante, le schéma proposé permet la distillation de connaissances sur de grands jeux de données non étiquetés, ce qui conduit à des élèves de haute qualité. Nous évaluons DnS sur cinq jeux de données publics, pour trois tâches différentes de recherche vidéo, et démontrons : a) que nos élèves atteignent des performances de l’état de l’art dans plusieurs cas, et b) que le cadre DnS offre un excellent compromis entre performance de recherche, vitesse computationnelle et espace de stockage. Dans certaines configurations, la méthode proposée atteint une précision mAP similaire à celle de l’enseignant, tout en étant 20 fois plus rapide et en nécessitant 240 fois moins d’espace de stockage. Les jeux de données collectés et l’implémentation sont disponibles publiquement : https://github.com/mever-team/distill-and-select.