Mugs : Un cadre d'apprentissage automatique auto-supervisé à plusieurs granularités

Dans l'apprentissage auto-supervisé, les caractéristiques à plusieurs granularités sont fortement souhaitées, bien qu’elles soient rarement explorées. En effet, différentes tâches en aval (par exemple, classification générale ou fine) nécessitent souvent des caractéristiques de granularité différente ou multiple — qu’il s’agisse de caractéristiques fines, grossières, ou d’un mélange des deux. Dans ce travail, pour la première fois, nous proposons un cadre efficace d’apprentissage auto-supervisé à granularité multiple, appelé Mugs (MUlti-Granular Self-supervised learning), visant à apprendre explicitement des caractéristiques visuelles à plusieurs granularités. Mugs intègre trois supervisions granulaires complémentaires : 1) une supervision de discrimination d’instance (IDS), 2) une nouvelle supervision de discrimination de groupe local (LGDS), et 3) une supervision de discrimination de groupe (GDS). La supervision IDS permet de distinguer différentes instances afin d’apprendre des caractéristiques fines au niveau de l’instance. La supervision LGDS regroupe les caractéristiques d’une image et de ses voisins en une caractéristique de groupe local, en rapprochant les caractéristiques de groupe locales issues de différentes coupes de la même image, tout en les éloignant des autres. Elle fournit une supervision complémentaire à IDS grâce à une alignement supplémentaire sur les voisins locaux, tout en éparpillant séparément les différents groupes locaux afin d’améliorer la discriminabilité. Cela permet ainsi d’apprendre des caractéristiques fines de haut niveau au niveau du groupe local. Enfin, pour éviter que des groupes locaux similaires ne soient dispersés de manière aléatoire ou trop éloignés, la supervision GDS rapproche les échantillons similaires, ce qui pousse les groupes locaux similaires à se regrouper, permettant ainsi de capturer des caractéristiques grossières au niveau d’un groupe (sémantique). En conséquence, Mugs est capable de capturer trois types de caractéristiques à différentes granularités, qui offrent généralement une meilleure généralisation sur diverses tâches en aval par rapport aux caractéristiques à granularité unique, comme les caractéristiques fines au niveau de l’instance dans les méthodes d’apprentissage contrastif. En ne préentraînant que sur ImageNet-1K, Mugs établit une nouvelle SOTA (State-of-the-Art) en précision de sondage linéaire à 82,1 % sur ImageNet-1K, dépassant la précédente SOTA de 1,1 %. Il surpasse également les meilleures performances existantes sur d'autres tâches, telles que l’apprentissage transféré, la détection et la segmentation.