Command Palette
Search for a command to run...
PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision
PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision
Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo
Résumé
Cet article explore un meilleur objectif de prédiction pour l'entraînement préalable de vision transformers basé sur BERT. Nous observons que les objectifs de prédiction actuels sont en contradiction avec les jugements de perception humaine. Cette incohérence motive notre recherche d’un objectif de prédiction perceptuelle. Nous affirmons que des images perceptuellement similaires devraient rester proches l’une de l’autre dans l’espace des objectifs de prédiction. Nous découvrons de manière surprenante une idée simple mais efficace : imposer la similarité perceptuelle pendant l’entraînement du dVAE. En outre, nous utilisons un modèle transformer auto-supervisé pour l’extraction de caractéristiques profondes, et montrons qu’il est particulièrement adapté au calcul de similarité perceptuelle. Nous démontrons que ces tokens visuels appris présentent effectivement des significations sémantiques améliorées, et contribuent à une meilleure performance de transfert dans diverses tâches en aval. Par exemple, nous atteignons une précision Top-1 de 84,5% sur ImageNet-1K en utilisant un modèle ViT-B comme architecture de base, dépassant ainsi la méthode concurrente BEiT de +1,3%, avec le même nombre d’époques d’entraînement préalable. Notre approche obtient également des améliorations significatives pour la détection d’objets et la segmentation sur COCO, ainsi que pour la segmentation sémantique sur ADE20K. En utilisant une architecture plus grande (ViT-H), nous atteignons l’état de l’art sur ImageNet avec une précision de 88,3%, parmi les méthodes utilisant uniquement les données d’ImageNet-1K.