BEiT : Pré-entraînement BERT des Transformateurs d'Images

Nous introduisons un modèle d’apprentissage automatique de représentations visuelles auto-supervisé, BEiT, qui signifie Bidirectional Encoder representation from Image Transformers. Inspiré de BERT, développé dans le domaine du traitement du langage naturel, nous proposons une tâche d’auto-encodage d’images masquées pour pré-entraîner des Transformers visuels. Plus précisément, chaque image possède deux représentations durant la phase de pré-entraînement : des morceaux d’image (par exemple de taille 16×16 pixels) et des tokens visuels (c’est-à-dire des tokens discrets). Nous commençons par « tokeniser » l’image originale en des tokens visuels. Ensuite, nous masquons aléatoirement certains morceaux d’image et les introduisons dans le modèle principal basé sur un Transformer. L’objectif de pré-entraînement consiste à reconstruire les tokens visuels d’origine à partir des morceaux d’image altérés. Après le pré-entraînement, nous ajustons finement directement les paramètres du modèle sur des tâches spécifiques en ajoutant des couches adaptées à la tâche sur l’encodeur pré-entraîné. Les résultats expérimentaux sur la classification d’images et la segmentation sémantique montrent que notre modèle atteint des performances compétitives par rapport aux méthodes de pré-entraînement précédentes. Par exemple, la version base de BEiT obtient une précision top-1 de 83,2 % sur ImageNet-1K, surpassant significativement l’entraînement « from scratch » de DeiT avec la même configuration (81,8 %). De plus, la version grande de BEiT atteint 86,3 % uniquement en utilisant ImageNet-1K, dépassant même le modèle ViT-L pré-entraîné de manière supervisée sur ImageNet-22K (85,2 %). Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://aka.ms/beit.