Transformers à vision multiscales

Nous présentons les Vision Transformers Multéchelle (MViT) pour la reconnaissance d’images et de vidéos, en reliant l’idée fondamentale des hiérarchies de caractéristiques multéchelle aux modèles transformer. Les Transformers multéchelle comprennent plusieurs étapes caractérisées par des dimensions de canal et de résolution spatiale variées. À partir de la résolution d’entrée et d’une faible dimension de canal, ces étapes développent de manière hiérarchique la capacité en canaux tout en réduisant progressivement la résolution spatiale. Cela génère une pyramide multéchelle de caractéristiques : les couches initiales opèrent à haute résolution spatiale afin de modéliser des informations visuelles simples et de bas niveau, tandis que les couches profondes traitent des caractéristiques spatialement plus grossières mais plus complexes et de haute dimension. Nous évaluons cette priorité architecturale fondamentale pour modéliser la nature dense des signaux visuels sur diverses tâches de reconnaissance vidéo, où notre modèle surpasse les Vision Transformers concurrents qui reposent sur un pré-entraînement externe à grande échelle et sont de 5 à 10 fois plus coûteux en calcul et en nombre de paramètres. Nous éliminons par la suite la dimension temporelle et appliquons notre modèle à la classification d’images, où il bat les résultats précédents obtenus avec les Vision Transformers. Le code est disponible à l’adresse suivante : https://github.com/facebookresearch/SlowFast