SEA : Assemblage de l'Encodeur de Phrases pour la Recherche Vidéo par Requêtes Textuelles

La recherche de vidéos non étiquetées par des requêtes textuelles, connue sous le nom de Recherche Vidéo Ad-hoc (AVA), est un thème central dans la gestion et la récupération de données multimédias. Le succès de l'AVA dépend du apprentissage de représentations inter-modales qui encode à la fois les phrases des requêtes et les vidéos dans des espaces communs pour calculer leur similarité sémantique. Inspiré par les premiers succès obtenus par quelques travaux antérieurs combinant plusieurs encodeurs de phrases, cet article fait un pas en avant en développant une nouvelle méthode générale pour exploiter efficacement divers encodeurs de phrases. La nouveauté de cette méthode, que nous appelons Assemblage d'Encodeurs de Phrases (AEP), se manifeste à deux niveaux. Premièrement, contrairement aux méthodes précédentes qui n'utilisent qu'un seul espace commun, l'AEP prend en charge le couplage texte-vidéo dans plusieurs espaces communs spécifiques à chaque encodeur. Cette propriété empêche un encodeur particulier, produisant un vecteur d'encodage beaucoup plus long que les autres, de dominer le processus de correspondance. Deuxièmement, afin d'explorer les complémentarités entre ces espaces communs individuels, nous proposons un apprentissage multi-espaces multi-pertes. Comme le montrent les expériences approfondies menées sur quatre benchmarks (MSR-VTT, TRECVID AVS 2016-2019, TGIF et MSVD), l'AEP surpasse l'état de l'art. De plus, l'AEP est extrêmement facile à mettre en œuvre. Tout cela rend l'AEP une solution attrayante pour l'AVA et prometteuse pour continuer à faire progresser la tâche en intégrant de nouveaux encodeurs de phrases.