HyperAIHyperAI

Command Palette

Search for a command to run...

COOT : Transformateur hiérarchique coopératif pour l'apprentissage de représentations vidéo-texte

Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox

Résumé

De nombreuses tâches réelles impliquant des vidéos et du texte reposent sur différentes granularités, telles que les images (frames) et les mots, les extraits (clips) et les phrases, ou encore les vidéos et les paragraphes, chacune ayant des significations distinctes. Dans cet article, nous proposons un modèle appelé Transformer hiérarchique coopératif (COOT) afin d’exploiter cette structure hiérarchique et de modéliser les interactions entre différentes granularités ainsi qu’entre différents modes. La méthode se compose de trois composants principaux : une couche d’agrégation de caractéristiques sensible à l’attention, qui exploite le contexte temporel local (intra-niveau, par exemple au sein d’un clip) ; un transformateur contextuel permettant d’apprendre les interactions entre les sémantiques de bas et de haut niveau (inter-niveau, par exemple clip-vidéo, phrase-paragraphe) ; et une perte de cohérence cyclique entre modalités pour relier vidéo et texte. La méthode proposée se distingue favorablement des états de l’art sur plusieurs benchmarks tout en nécessitant un nombre réduit de paramètres. Le code source est entièrement disponible en open-source à l’adresse suivante : https://github.com/gingsi/coot-videotext


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
COOT : Transformateur hiérarchique coopératif pour l'apprentissage de représentations vidéo-texte | Articles | HyperAI