HyperAIHyperAI

Command Palette

Search for a command to run...

M&M Mix : Un Ensembliste Transformer Multimodal Multivue

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

Résumé

Ce rapport décrit l'approche mise en œuvre dans notre solution primée au concours de reconnaissance d’actions Epic-Kitchens 2022. Notre méthode s’appuie sur notre travail récent, le Multiview Transformer pour la reconnaissance vidéo (MTV), et l’adapte aux entrées multimodales. Notre soumission finale repose sur un ensemble de modèles Multimodal MTV (M&M), variant selon la taille du modèle de base et les modalités d’entrée. Cette approche a atteint une précision Top-1 de 52,8 % sur l’ensemble de test en matière de classes d’actions, soit une amélioration de 4,1 % par rapport à l’entrée gagnante de l’année précédente.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp