BinaryViT : Pousser les Transformers binaires pour la vision vers les modèles convolutionnels

À mesure que les transformateurs de vision (ViTs) gagnent en popularité et en taille, l’intérêt croît pour les rendre plus efficaces et moins coûteux en termes de calcul afin de faciliter leur déploiement sur des dispositifs embarqués aux ressources informatiques limitées. La binarisation peut considérablement réduire la taille des modèles ViT ainsi que leur coût computationnel, en exploitant des opérations de comptage de bits (popcount) lorsque les poids et les activations sont binaires. Toutefois, les ViTs subissent une dégradation de performance plus importante que les réseaux de neurones convolutifs (CNN) lorsqu’on applique directement des méthodes de binarisation conçues pour les CNN ou des méthodes existantes de binarisation, notamment sur des jeux de données à nombre élevé de classes comme ImageNet-1k. À la suite d’une analyse approfondie, nous constatons que les ViTs purs binarisés, tels que DeiT, manquent de nombreuses propriétés architecturales clés présentes dans les CNN, qui permettent aux CNN binarisés de posséder une capacité représentationnelle bien supérieure à celle des ViTs binarisés purs. En conséquence, nous proposons BinaryViT, une architecture inspirée par les CNN, dans laquelle nous intégrons des opérations empruntées à l’architecture CNN dans une architecture ViT pure, afin d’enrichir la capacité représentationnelle d’un ViT binarisé sans introduire de convolutions. Ces opérations incluent une couche de moyennage (average pooling) à la place de la couche de pooling des tokens, un bloc composé de plusieurs branches de moyennage, une transformation affine placée juste avant l’addition de chaque connexion résiduelle principale, ainsi qu’une structure en pyramide. Les résultats expérimentaux sur le jeu de données ImageNet-1k démontrent l’efficacité de ces opérations, permettant à un modèle ViT pur binarisé de rivaliser avec les modèles binarisés CNN les plus avancés (SOTA) précédemment publiés.