HyperAIHyperAI
il y a 11 jours

Clustering d'images avec une guidance externe

Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Jianping Fan, Xi Peng
Clustering d'images avec une guidance externe
Résumé

Le cœur du regroupement réside dans l’intégration de connaissances a priori afin de construire des signaux de supervision. Depuis les méthodes classiques comme k-means fondées sur la compacité des données jusqu’aux approches récentes de clustering contrastif guidées par une auto-supervision, l’évolution des méthodes de regroupement correspond intrinsèquement à l’évolution des signaux de supervision. À l’heure actuelle, de nombreux efforts ont été consacrés à l’extraction de signaux de supervision internes à partir des données. Toutefois, les connaissances externes abondantes — telles que les descriptions sémantiques — qui favorisent naturellement le regroupement, sont lamentablement ignorées. Dans ce travail, nous proposons d’utiliser la connaissance externe comme un nouveau signal de supervision pour guider le regroupement, même si elle semble a priori étrangère aux données fournies. Pour mettre en œuvre et valider cette idée, nous avons conçu une méthode de regroupement guidée par des données externes (Text-Aided Clustering, TAC), qui exploite les significations sémantiques des mots du dictionnaire WordNet afin d’améliorer le regroupement d’images. Plus précisément, TAC sélectionne tout d’abord et récupère les noms de WordNet qui permettent le mieux de distinguer les images, afin d’améliorer la discriminabilité des caractéristiques. Ensuite, pour renforcer les performances du regroupement d’images, TAC exploite une collaboration entre modalités textuelles et visuelles en s’appuyant sur une distillation mutuelle d’informations de voisinage intermodales. Les expérimentations montrent que TAC atteint un niveau d’expertise (state-of-the-art) sur cinq benchmarks largement utilisés pour le regroupement d’images, ainsi que sur trois benchmarks plus exigeants, y compris l’intégralité du jeu de données ImageNet-1K.

Clustering d'images avec une guidance externe | Articles de recherche récents | HyperAI