HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentation pour le regroupement par diffusion de prototypes et échantillonnage positif

Zhizhong Huang Jie Chen Junping Zhang Hongming Shan

Résumé

Les méthodes existantes de clustering profond reposent soit sur une apprentissage de représentation contrastif, soit sur une approche non contrastive pour les tâches de clustering ultérieures. Les méthodes basées sur le contraste, grâce à l’utilisation de paires négatives, permettent d’apprendre des représentations uniformes adaptées au clustering ; toutefois, ces paires négatives peuvent inévitablement entraîner un problème de collision de classes, compromettant ainsi la performance du clustering. À l’inverse, les méthodes non contrastives évitent ce problème de collision de classes, mais les représentations résultantes, non uniformes, peuvent provoquer un effondrement du clustering. Afin de tirer parti des avantages des deux approches, ce papier présente une nouvelle méthode de clustering profond end-to-end, appelée ProPos, basée sur une dissémination de prototypes et un échantillonnage de paires positives. Plus précisément, nous maximisons d’abord la distance entre les représentations prototypiques — une perte que nous nommons perte de dissémination de prototypes — afin d’améliorer l’uniformité des représentations. Ensuite, nous alignons une version augmentée d’un exemple avec les voisins échantillonnés d’une autre version — supposés constituer une vraie paire positive dans l’espace d’embedding — afin d’améliorer la compacité intra-cluster, une opération que nous désignons par alignement par échantillonnage de paires positives. Les forces de ProPos résident dans l’évitement du problème de collision de classes, l’obtention de représentations uniformes, la séparation nette des clusters et la compacité intra-cluster. En optimisant ProPos dans un cadre d’expectation-maximization end-to-end, les résultats expérimentaux étendus démontrent que ProPos atteint des performances compétitives sur des jeux de données de clustering de taille modérée et établit un nouveau record d’état de l’art sur des jeux de données à grande échelle. Le code source est disponible à l’adresse \url{https://github.com/Hzzone/ProPos}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp