Vers une recherche textuelle à vidéo efficace et performante grâce à l'apprentissage de représentations visuelles de grosses à fines

Ces dernières années, les méthodes de recherche de vidéos à partir du texte basées sur CLIP ont connu un développement rapide. La principale direction d'évolution consiste à exploiter une gamme beaucoup plus large d'indices visuels et textuels pour atteindre l'alignement. Plus concrètement, ces méthodes qui présentent des performances impressionnantes conçoivent souvent un bloc de fusion complexe pour l'interaction entre phrases (mots) et vidéos (images), malgré la complexité computationnelle prohibitivement élevée. Néanmoins, ces approches ne sont pas optimales en termes d'utilisation des caractéristiques et d'efficacité de la recherche. Pour résoudre ce problème, nous avons adopté l'apprentissage de caractéristiques visuelles multi-granularités, garantissant que le modèle capture de manière exhaustive les caractéristiques du contenu visuel, allant des niveaux abstraits aux détails lors de la phase d'entraînement. Afin d'optimiser davantage l'utilisation des caractéristiques multi-granularités, nous avons élaboré une architecture de recherche en deux étapes lors de la phase de recherche. Cette solution équilibre ingénieusement le contenu de recherche à granularité grossière et fine. De plus, elle assure un équilibre harmonieux entre l'efficacité et l'efficience de la recherche. Plus précisément, lors de la phase d'entraînement, nous avons conçu un bloc d'interaction guidé par le texte sans paramètres (Text-Gated Interaction Block - TIB) pour l'apprentissage de représentations vidéo à granularité fine et intégré une contrainte supplémentaire de Pearson pour optimiser l'apprentissage de représentations inter-modales. Lors de la phase de recherche, nous utilisons des représentations vidéo à granularité grossière pour rappeler rapidement les k meilleurs candidats, qui sont ensuite réordonnés par des représentations vidéo à granularité fine. Des expériences approfondies sur quatre benchmarks montrent l'efficacité et l'efficience du système. Notamment, notre méthode atteint des performances comparables à celles des méthodes actuellement les plus avancées tout en étant presque 50 fois plus rapide.