COOT : Transformateur hiérarchique coopératif pour l'apprentissage de représentations vidéo-texte

De nombreuses tâches réelles impliquant des vidéos et du texte reposent sur différentes granularités, telles que les images (frames) et les mots, les extraits (clips) et les phrases, ou encore les vidéos et les paragraphes, chacune ayant des significations distinctes. Dans cet article, nous proposons un modèle appelé Transformer hiérarchique coopératif (COOT) afin d’exploiter cette structure hiérarchique et de modéliser les interactions entre différentes granularités ainsi qu’entre différents modes. La méthode se compose de trois composants principaux : une couche d’agrégation de caractéristiques sensible à l’attention, qui exploite le contexte temporel local (intra-niveau, par exemple au sein d’un clip) ; un transformateur contextuel permettant d’apprendre les interactions entre les sémantiques de bas et de haut niveau (inter-niveau, par exemple clip-vidéo, phrase-paragraphe) ; et une perte de cohérence cyclique entre modalités pour relier vidéo et texte. La méthode proposée se distingue favorablement des états de l’art sur plusieurs benchmarks tout en nécessitant un nombre réduit de paramètres. Le code source est entièrement disponible en open-source à l’adresse suivante : https://github.com/gingsi/coot-videotext