Omnivore : un modèle unique pour de nombreuses modalités visuelles

Les travaux antérieurs ont étudié différentes modalités visuelles de manière isolée et développé des architectures distinctes pour la reconnaissance d'images, de vidéos et de données 3D. À la place, dans cet article, nous proposons un seul modèle capable de classifier efficacement images, vidéos et données 3D à partir d’un même ensemble de paramètres. Notre modèle « Omnivore » exploite la flexibilité des architectures basées sur les transformeurs et est entraîné de manière conjointe sur des tâches de classification issues de différentes modalités. Omnivore est simple à entraîner, utilise des jeux de données standard disponibles commercialement, et atteint des performances équivalentes ou supérieures à celles des modèles spécialisés dans chaque modalité, pour une taille équivalente. Un seul modèle Omnivore obtient 86,0 % sur ImageNet, 84,1 % sur Kinetics et 67,1 % sur SUN RGB-D. Après finetuning, nos modèles surpassent les travaux antérieurs sur diverses tâches visuelles et démontrent une bonne généralisation entre modalités. La représentation visuelle partagée d’Omnivore permet naturellement une reconnaissance intermodale, même en l’absence de correspondances entre les modalités. Nous espérons que nos résultats inciteront les chercheurs à modéliser conjointement les différentes modalités visuelles.