Regroupement profond par plongement conjoint d'autoencodeurs convolutionnels et minimisation de l'entropie relative

Le regroupement d'images est l'une des applications les plus importantes de la vision par ordinateur, qui a été largement étudiée dans la littérature. Cependant, les méthodes actuelles de regroupement souffrent généralement d'un manque d'efficacité et de scalabilité lorsqu'elles traitent des données de grande échelle et à haute dimension. Dans cet article, nous proposons un nouveau modèle de regroupement appelé DEeP Embedded RegularIzed ClusTering (DEPICT), qui mappe efficacement les données dans un sous-espace d'embedding discriminatif et prédit précisément les affectations de clusters. DEPICT se compose généralement d'une fonction de régression logistique multinomiale superposée sur un autoencodeur convolutif multicouche. Nous définissons une fonction objectif de regroupement en utilisant la minimisation de l'entropie relative (divergence KL), régularisée par une loi a priori pour la fréquence des affectations de clusters. Une stratégie alternée est ensuite dérivée pour optimiser l'objectif en mettant à jour les paramètres et en estimant les affectations de clusters. De plus, nous utilisons les fonctions de perte de reconstruction dans notre autoencodeur comme terme de régularisation dépendant des données, afin d'éviter que la fonction d'embedding profonde ne surapprenne. Pour bénéficier d'une optimisation bout-à-bout et éliminer la nécessité d'un pré-entraînement couche par couche, nous introduisons un cadre d'apprentissage conjoint visant à minimiser simultanément les fonctions de perte unifiées du regroupement et de la reconstruction, tout en entraînant toutes les couches du réseau en même temps. Les résultats expérimentaux indiquent la supériorité et le temps d'exécution plus rapide de DEPICT dans des tâches réelles de regroupement, où aucune donnée étiquetée n'est disponible pour l'ajustement des hyperparamètres.