HyperAIHyperAI
il y a 2 mois

Révéler les secrets obscurs du modèle d'image masquée

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao
Révéler les secrets obscurs du modèle d'image masquée
Résumé

Le masquage d'images (MIM) en tant que pré-entraînement s'est révélé efficace pour de nombreuses tâches visuelles en aval, mais la manière et les lieux où le MIM fonctionne restent encore obscurs. Dans cet article, nous comparons le MIM avec les modèles pré-entraînés supervisés, qui ont longtemps dominé le domaine, sous deux angles : les visualisations et les expériences, afin de mettre en lumière leurs différences représentationnelles clés. À travers les visualisations, nous constatons que le MIM apporte un biais inductif local à tous les niveaux des modèles entraînés, tandis que les modèles supervisés tendent à se concentrer localement aux premiers niveaux mais plus globalement aux niveaux supérieurs. Cela pourrait expliquer pourquoi le MIM aide les Transformers visuels, qui disposent d'un champ récepteur très large, à optimiser leur performance. En utilisant le MIM, le modèle peut maintenir une grande diversité dans les têtes d'attention à tous les niveaux. Pour les modèles supervisés, cette diversité presque disparaît dans les trois derniers niveaux et une moindre diversité nuit aux performances du fine-tuning. Par l'intermédiaire des expériences, nous avons constaté que les modèles MIM peuvent réaliser des performances significativement meilleures sur des tâches géométriques et de mouvement avec des sémantiques faibles ou sur des tâches de classification fine-grained par rapport à leurs homologues supervisés. Sans recourir à des techniques avancées supplémentaires, un SwinV2-L pré-entraîné selon une méthode standard de MIM peut atteindre des performances de pointe en estimation de pose (78,9 AP sur COCO test-dev et 78,0 AP sur CrowdPose), en estimation de profondeur (0,287 RMSE sur NYUv2 et 1,966 RMSE sur KITTI), ainsi qu'en suivi d'objets vidéo (70,7 SUC sur LaSOT). Pour les jeux de données axés sur la compréhension sémantique où les catégories sont suffisamment couvertes par le pré-entraînement supervisé, les modèles MIM peuvent toujours atteindre des performances transférables hautement compétitives. Avec une compréhension plus approfondie du MIM, nous espérons que notre travail inspirera de nouvelles recherches solides dans cette direction.

Révéler les secrets obscurs du modèle d'image masquée | Articles de recherche récents | HyperAI