HyperAIHyperAI
il y a 15 jours

Clustering par pseudo-étiquetage sélectif

Louis Mahon, Thomas Lukasiewicz
Clustering par pseudo-étiquetage sélectif
Résumé

Les réseaux de neurones profonds (DNN) offrent une solution pour aborder la tâche exigeante du regroupement de données à haute dimension. Les DNN peuvent extraire des caractéristiques pertinentes, permettant ainsi de produire une représentation à dimension réduite, plus adaptée aux techniques de regroupement. Étant donné que le regroupement est généralement effectué dans un cadre purement non supervisé, où aucune étiquette d'entraînement n'est disponible, une question se pose alors : comment entraîner le extracteur de caractéristiques DNN ? Les approches actuelles les plus précises combinent l'entraînement du DNN avec l'objectif de regroupement, de sorte que les informations issues du processus de regroupement puissent être utilisées pour ajuster le DNN et produire des caractéristiques améliorées pour le regroupement. Un inconvénient de cette approche réside dans le fait que les « pseudo-étiquettes » générées par l'algorithme de regroupement sont bruitées, et toute erreur qu'elles contiennent peut nuire à l'entraînement du DNN. Dans cet article, nous proposons une méthode appelée clustering par pseudo-étiquettes sélectives, qui utilise uniquement les pseudo-étiquettes les plus fiables pour entraîner le DNN. Nous démontrons formellement les gains de performance sous certaines conditions. Appliquée à la tâche de regroupement d'images, cette nouvelle approche atteint un niveau d'expertise (state-of-the-art) sur trois jeux de données d'images populaires. Le code est disponible à l'adresse suivante : https://github.com/Lou1sM/clustering.

Clustering par pseudo-étiquetage sélectif | Articles de recherche récents | HyperAI