HyperAIHyperAI

Command Palette

Search for a command to run...

RoME : Transformateur à Mélanges de Spécialistes Conscient du Rôle pour la Recherche Texte-Vidéo

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

Résumé

Des séries de vidéos sont quotidiennement téléchargées en raison de la popularité des plateformes sociales ; par conséquent, la récupération des contenus vidéo les plus pertinents en réponse à des requêtes textuelles utilisateurs revêt une importance croissante. La plupart des méthodes actuelles ne considèrent qu’un seul espace d’embeddings conjoint entre les caractéristiques visuelles globales et textuelles, sans tenir compte des structures locales propres à chaque modalité. D'autres approches envisagent plusieurs espaces d'embeddings comprenant séparément des caractéristiques globales et locales, tout en négligeant les corrélations riches entre les modalités.Nous proposons un nouveau modèle transformer à experts mixtes, RoME, qui décompose le texte et la vidéo en trois niveaux distincts : contextes spatiaux, contextes temporels et contextes d’objets. Nous exploitons un mécanisme d’attention basé sur les transformateurs afin d’exploiter pleinement les embeddings visuels et textuels aux niveaux global et local, en intégrant une architecture à experts mixtes pour capturer les corrélations inter-modales ainsi que les structures internes. Les résultats montrent que notre méthode surpasser les approches de pointe sur les jeux de données YouCook2 et MSR-VTT, même en utilisant le même modèle visuel de base sans pré-entraînement. Enfin, nous avons mené des études d’ablation approfondies afin de justifier nos choix architecturaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp