il y a 3 mois

PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo

Voir les détails de l'article

PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision

Résumé

Cet article explore un meilleur objectif de prédiction pour l'entraînement préalable de vision transformers basé sur BERT. Nous observons que les objectifs de prédiction actuels sont en contradiction avec les jugements de perception humaine. Cette incohérence motive notre recherche d’un objectif de prédiction perceptuelle. Nous affirmons que des images perceptuellement similaires devraient rester proches l’une de l’autre dans l’espace des objectifs de prédiction. Nous découvrons de manière surprenante une idée simple mais efficace : imposer la similarité perceptuelle pendant l’entraînement du dVAE. En outre, nous utilisons un modèle transformer auto-supervisé pour l’extraction de caractéristiques profondes, et montrons qu’il est particulièrement adapté au calcul de similarité perceptuelle. Nous démontrons que ces tokens visuels appris présentent effectivement des significations sémantiques améliorées, et contribuent à une meilleure performance de transfert dans diverses tâches en aval. Par exemple, nous atteignons une précision Top-1 de $\textbf{84,5\%}$ sur ImageNet-1K en utilisant un modèle ViT-B comme architecture de base, dépassant ainsi la méthode concurrente BEiT de $\textbf{+1,3\%}$, avec le même nombre d’époques d’entraînement préalable. Notre approche obtient également des améliorations significatives pour la détection d’objets et la segmentation sur COCO, ainsi que pour la segmentation sémantique sur ADE20K. En utilisant une architecture plus grande (ViT-H), nous atteignons l’état de l’art sur ImageNet avec une précision de $\textbf{88,3\%}$, parmi les méthodes utilisant uniquement les données d’ImageNet-1K.