il y a 2 mois

Les grands modèles d'images pré-entraînés peuvent-ils extraire des représentations universelles ?

Lin, Yutong ; Liu, Ze ; Zhang, Zheng ; Hu, Han ; Zheng, Nanning ; Lin, Stephen ; Cao, Yue

Résumé

Les modèles préentraînés figés sont devenus une alternative viable au paradigme d'entraînement préalable suivi d'un ajustement fin pour le transfert d'apprentissage. Cependant, avec les modèles figés, il y a relativement peu de paramètres disponibles pour s'adapter aux tâches en aval, ce qui pose un problème en vision par ordinateur où les tâches varient considérablement en termes de format d'entrée/sortie et du type d'information qui est pertinent. Dans cet article, nous présentons une étude des modèles préentraînés figés lorsqu'ils sont appliqués à des tâches de vision par ordinateur diverses et représentatives, incluant la détection d'objets, la segmentation sémantique et la reconnaissance d'actions dans les vidéos. À partir de cette analyse empirique, notre travail répond aux questions suivantes : quelle tâche d'entraînement préalable convient le mieux à ce cadre figé, comment rendre ce cadre plus flexible pour diverses tâches en aval, et quels sont les effets des tailles de modèle plus grandes. Nous examinons également la limite supérieure des performances en utilisant un modèle préentraîné figé géant avec 3 milliards de paramètres (SwinV2-G) et constatons qu'il atteint des performances compétitives sur un ensemble varié de grands jeux de données de référence avec seulement un réseau de base figé partagé : 60,0 mAP pour les boîtes englobantes et 52,2 mAP pour les masques sur le test-dev de détection d'objets COCO, 57,6 mIoU sur la validation de segmentation sémantique ADE20K, et 81,7 % de précision en première position sur la reconnaissance d'actions Kinetics-400. Avec cette étude, nous espérons attirer davantage l'attention sur cette voie prometteuse consistant à figer les modèles d'image préentraînés.