HyperAIHyperAI

Command Palette

Search for a command to run...

Mugs : Un cadre d'apprentissage automatique auto-supervisé à plusieurs granularités

Pan Zhou Yichen Zhou Chenyang Si Weihao Yu Teck Khim Ng Shuicheng Yan

Résumé

Dans l'apprentissage auto-supervisé, les caractéristiques à plusieurs granularités sont fortement souhaitées, bien qu’elles soient rarement explorées. En effet, différentes tâches en aval (par exemple, classification générale ou fine) nécessitent souvent des caractéristiques de granularité différente ou multiple — qu’il s’agisse de caractéristiques fines, grossières, ou d’un mélange des deux. Dans ce travail, pour la première fois, nous proposons un cadre efficace d’apprentissage auto-supervisé à granularité multiple, appelé Mugs (MUlti-Granular Self-supervised learning), visant à apprendre explicitement des caractéristiques visuelles à plusieurs granularités. Mugs intègre trois supervisions granulaires complémentaires : 1) une supervision de discrimination d’instance (IDS), 2) une nouvelle supervision de discrimination de groupe local (LGDS), et 3) une supervision de discrimination de groupe (GDS). La supervision IDS permet de distinguer différentes instances afin d’apprendre des caractéristiques fines au niveau de l’instance. La supervision LGDS regroupe les caractéristiques d’une image et de ses voisins en une caractéristique de groupe local, en rapprochant les caractéristiques de groupe locales issues de différentes coupes de la même image, tout en les éloignant des autres. Elle fournit une supervision complémentaire à IDS grâce à une alignement supplémentaire sur les voisins locaux, tout en éparpillant séparément les différents groupes locaux afin d’améliorer la discriminabilité. Cela permet ainsi d’apprendre des caractéristiques fines de haut niveau au niveau du groupe local. Enfin, pour éviter que des groupes locaux similaires ne soient dispersés de manière aléatoire ou trop éloignés, la supervision GDS rapproche les échantillons similaires, ce qui pousse les groupes locaux similaires à se regrouper, permettant ainsi de capturer des caractéristiques grossières au niveau d’un groupe (sémantique). En conséquence, Mugs est capable de capturer trois types de caractéristiques à différentes granularités, qui offrent généralement une meilleure généralisation sur diverses tâches en aval par rapport aux caractéristiques à granularité unique, comme les caractéristiques fines au niveau de l’instance dans les méthodes d’apprentissage contrastif. En ne préentraînant que sur ImageNet-1K, Mugs établit une nouvelle SOTA (State-of-the-Art) en précision de sondage linéaire à 82,1 % sur ImageNet-1K, dépassant la précédente SOTA de 1,1 %. Il surpasse également les meilleures performances existantes sur d'autres tâches, telles que l’apprentissage transféré, la détection et la segmentation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp