Clustering Invariant Profond à la Transformation

Les progrès récents en matière de regroupement d'images se concentrent généralement sur l'apprentissage de représentations profondes améliorées. En revanche, nous présentons une approche orthogonale qui ne repose pas sur des caractéristiques abstraites mais apprend à prédire les transformations d'images et effectue le regroupement directement dans l'espace des images. Ce processus d'apprentissage s'intègre naturellement dans la formation basée sur les gradients du K-means et du modèle de mélange gaussien, sans nécessiter aucune perte supplémentaire ou paramètre hyperparamétrique. Il nous conduit à deux nouveaux cadres de regroupement profond invariant aux transformations, qui apprennent conjointement les prototypes et les transformations. Plus précisément, nous utilisons des modules d'apprentissage profond qui nous permettent de résoudre l'invariance aux transformations spatiales, chromatiques et morphologiques (spatial, color and morphological). Notre approche est conceptuellement simple et présente plusieurs avantages, notamment la possibilité d'adapter facilement l'invariance souhaitée à la tâche et une forte interprétabilité des centres de cluster ainsi que des affectations aux clusters. Nous démontrons que notre nouvelle approche produit des résultats compétitifs et très prometteurs sur des benchmarks standard de regroupement d'images. Enfin, nous mettons en évidence sa robustesse et les avantages de son interprétabilité améliorée en visualisant les résultats de regroupement sur des collections photographiques réelles.