HyperAI

Pré-formation Une Fois

Le Pre-training Once (POA) est un concept proposé par Ant Group dans l'article «POA : pré-formation unique pour les modèles de toutes taillesUn cadre d'apprentissage auto-supervisé à trois branches a été proposé dans [15], qui introduit une branche d'étudiant élastique et échantillonne aléatoirement des sous-réseaux pour l'apprentissage à chaque étape de pré-apprentissage. POA peut générer des modèles de différentes tailles en une seule pré-formation, ce qui convient aux tâches en aval. Des expériences ont montré qu'il atteint des performances de pointe sur plusieurs tâches.

Arrière-plan

Une pré-formation auto-supervisée à grande échelle ouvre la voie à un modèle de base permettant de gérer de nombreuses tâches de vision différentes. La plupart des méthodes de pré-formation entraînent uniquement un modèle d’une certaine taille à la fois. Cependant, diverses contraintes de calcul ou de stockage dans des scénarios réels nécessitent des efforts considérables pour développer une gamme de modèles de différentes tailles pour le déploiement. Cette étude a abordé les questions ci-dessus.

Aperçu de la pré-formation une fois

Introduire des branches étudiantes innovantes et résilientes dans le paradigme moderne de l’auto-raffinement. À chaque étape de pré-formation, l’équipe de recherche a extrait de manière aléatoire un sous-réseau de l’étudiant d’origine pour former l’étudiant élastique et a formé toutes les branches de manière auto-affinée. Une fois la pré-formation terminée, POA peut extraire des modèles pré-formés de différentes tailles pour les tâches en aval. Notamment, l'étudiant élastique facilite la préformation simultanée de plusieurs modèles de différentes tailles, qui agit également comme un ensemble supplémentaire de modèles de différentes tailles pour améliorer l'apprentissage de la représentation. Des expériences approfondies (y compris les k-voisins les plus proches, l'évaluation de la détection linéaire et l'évaluation sur plusieurs tâches en aval) démontrent l'efficacité et les avantages de notre POA. Il atteint des performances de pointe en utilisant les backbones ViT, Swin Transformer et ResNet, générant une centaine de modèles de tailles différentes au cours d'une seule session de pré-formation.