RoME : Transformateur à Mélanges de Spécialistes Conscient du Rôle pour la Recherche Texte-Vidéo

Des séries de vidéos sont quotidiennement téléchargées en raison de la popularité des plateformes sociales ; par conséquent, la récupération des contenus vidéo les plus pertinents en réponse à des requêtes textuelles utilisateurs revêt une importance croissante. La plupart des méthodes actuelles ne considèrent qu’un seul espace d’embeddings conjoint entre les caractéristiques visuelles globales et textuelles, sans tenir compte des structures locales propres à chaque modalité. D'autres approches envisagent plusieurs espaces d'embeddings comprenant séparément des caractéristiques globales et locales, tout en négligeant les corrélations riches entre les modalités.Nous proposons un nouveau modèle transformer à experts mixtes, RoME, qui décompose le texte et la vidéo en trois niveaux distincts : contextes spatiaux, contextes temporels et contextes d’objets. Nous exploitons un mécanisme d’attention basé sur les transformateurs afin d’exploiter pleinement les embeddings visuels et textuels aux niveaux global et local, en intégrant une architecture à experts mixtes pour capturer les corrélations inter-modales ainsi que les structures internes. Les résultats montrent que notre méthode surpasser les approches de pointe sur les jeux de données YouCook2 et MSR-VTT, même en utilisant le même modèle visuel de base sans pré-entraînement. Enfin, nous avons mené des études d’ablation approfondies afin de justifier nos choix architecturaux.