HyperAIHyperAI

Command Palette

Search for a command to run...

Les grands modèles d'images pré-entraînés peuvent-ils extraire des représentations universelles ?

Yutong Lin Ze Liu Zheng Zhang Han Hu Nanning Zheng Stephen Lin Yue Cao

Résumé

Les modèles préentraînés figés sont devenus une alternative viable au paradigme d'entraînement préalable suivi d'un ajustement fin pour le transfert d'apprentissage. Cependant, avec les modèles figés, il y a relativement peu de paramètres disponibles pour s'adapter aux tâches en aval, ce qui pose un problème en vision par ordinateur où les tâches varient considérablement en termes de format d'entrée/sortie et du type d'information qui est pertinent. Dans cet article, nous présentons une étude des modèles préentraînés figés lorsqu'ils sont appliqués à des tâches de vision par ordinateur diverses et représentatives, incluant la détection d'objets, la segmentation sémantique et la reconnaissance d'actions dans les vidéos. À partir de cette analyse empirique, notre travail répond aux questions suivantes : quelle tâche d'entraînement préalable convient le mieux à ce cadre figé, comment rendre ce cadre plus flexible pour diverses tâches en aval, et quels sont les effets des tailles de modèle plus grandes. Nous examinons également la limite supérieure des performances en utilisant un modèle préentraîné figé géant avec 3 milliards de paramètres (SwinV2-G) et constatons qu'il atteint des performances compétitives sur un ensemble varié de grands jeux de données de référence avec seulement un réseau de base figé partagé : 60,0 mAP pour les boîtes englobantes et 52,2 mAP pour les masques sur le test-dev de détection d'objets COCO, 57,6 mIoU sur la validation de segmentation sémantique ADE20K, et 81,7 % de précision en première position sur la reconnaissance d'actions Kinetics-400. Avec cette étude, nous espérons attirer davantage l'attention sur cette voie prometteuse consistant à figer les modèles d'image préentraînés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp