il y a 11 jours

Apprentissage profond multimodal : partitionnement non supervisé d'images

Guy Shiran, Daphna Weinshall

Résumé

Le regroupement non supervisé d’images brutes non étiquetées constitue une tâche ardue, qui a récemment été abordée avec un certain succès grâce aux méthodes d’apprentissage profond. Dans cette étude, nous proposons un cadre de clustering non supervisé qui apprend un réseau neuronal profond de manière end-to-end, permettant d’obtenir directement les affectations de clusters aux images sans traitement supplémentaire. Le modèle Multi-Modal Deep Clustering (MMDC) entraîne un réseau profond afin d’aligner ses embeddings d’images avec des points cibles prélevés selon une distribution de mélange de Gaussiennes. Les affectations de clusters sont ensuite déterminées par l’association des embeddings d’images aux composantes du mélange. Parallèlement, le même réseau profond est entraîné à résoudre une tâche supplémentaire auto-supervisée : la prédiction des rotations d’images. Ce mécanisme pousse le réseau à apprendre des représentations d’images plus significatives, favorisant ainsi un meilleur clustering. Les résultats expérimentaux montrent que MMDC atteint ou dépasse les performances de l’état de l’art sur six benchmarks exigeants. Sur des jeux de données d’images naturelles, nous améliorons significativement les résultats antérieurs, avec des gains absolus allant jusqu’à 20 points de précision, obtenant ainsi une précision de 82 % sur CIFAR-10, 45 % sur CIFAR-100 et 69 % sur STL-10.