HyperAIHyperAI

Command Palette

Search for a command to run...

PeCo : Codebook Perceptuel pour l'entraînement préalable de BERT des Transformers Vision

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo

Résumé

Cet article explore un meilleur objectif de prédiction pour l'entraînement préalable de vision transformers basé sur BERT. Nous observons que les objectifs de prédiction actuels sont en contradiction avec les jugements de perception humaine. Cette incohérence motive notre recherche d’un objectif de prédiction perceptuelle. Nous affirmons que des images perceptuellement similaires devraient rester proches l’une de l’autre dans l’espace des objectifs de prédiction. Nous découvrons de manière surprenante une idée simple mais efficace : imposer la similarité perceptuelle pendant l’entraînement du dVAE. En outre, nous utilisons un modèle transformer auto-supervisé pour l’extraction de caractéristiques profondes, et montrons qu’il est particulièrement adapté au calcul de similarité perceptuelle. Nous démontrons que ces tokens visuels appris présentent effectivement des significations sémantiques améliorées, et contribuent à une meilleure performance de transfert dans diverses tâches en aval. Par exemple, nous atteignons une précision Top-1 de 84,5%\textbf{84,5\%}84,5% sur ImageNet-1K en utilisant un modèle ViT-B comme architecture de base, dépassant ainsi la méthode concurrente BEiT de +1,3%\textbf{+1,3\%}+1,3%, avec le même nombre d’époques d’entraînement préalable. Notre approche obtient également des améliorations significatives pour la détection d’objets et la segmentation sur COCO, ainsi que pour la segmentation sémantique sur ADE20K. En utilisant une architecture plus grande (ViT-H), nous atteignons l’état de l’art sur ImageNet avec une précision de 88,3%\textbf{88,3\%}88,3%, parmi les méthodes utilisant uniquement les données d’ImageNet-1K.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp