il y a 17 jours
M&M Mix : Un Ensembliste Transformer Multimodal Multivue
Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid

Résumé
Ce rapport décrit l'approche mise en œuvre dans notre solution primée au concours de reconnaissance d’actions Epic-Kitchens 2022. Notre méthode s’appuie sur notre travail récent, le Multiview Transformer pour la reconnaissance vidéo (MTV), et l’adapte aux entrées multimodales. Notre soumission finale repose sur un ensemble de modèles Multimodal MTV (M&M), variant selon la taille du modèle de base et les modalités d’entrée. Cette approche a atteint une précision Top-1 de 52,8 % sur l’ensemble de test en matière de classes d’actions, soit une amélioration de 4,1 % par rapport à l’entrée gagnante de l’année précédente.