Command Palette
Search for a command to run...
Algorithme de Ensemble Actif Basé sur Oracle pour le Clustering de Sous-espaces Élastique à Grande Échelle
Algorithme de Ensemble Actif Basé sur Oracle pour le Clustering de Sous-espaces Élastique à Grande Échelle
Chong You; Chun-Guang Li; Daniel P. Robinson; Rene Vidal
Résumé
Les méthodes de clustering de sous-espaces les plus avancées sont basées sur l'expression de chaque point de données comme une combinaison linéaire d'autres points de données tout en régularisant la matrice des coefficients avec les normes ℓ1, ℓ2 ou nucléaires. La régularisation ℓ1 garantit une affinité préservant les sous-espaces (c'est-à-dire qu'il n'y a pas de connexions entre des points appartenant à différents sous-espaces) sous des conditions théoriques larges, mais les clusters peuvent ne pas être connectés. Les régularisations ℓ2 et nucléaires améliorent souvent la connectivité, mais elles fournissent une affinité préservant les sous-espaces uniquement pour des sous-espaces indépendants. Les régularisations mixtes ℓ1, ℓ2 et nucléaires offrent un équilibre entre les propriétés de préservation des sous-espaces et de connectivité, mais cela se fait au prix d'une complexité computationnelle accrue. Cet article étudie la géométrie du régulariseur élastique (un mélange des normes ℓ1 et ℓ2) et l'utilise pour dériver une méthode d'ensemble actif prouvée et évolutivité pour trouver les coefficients optimaux. Notre analyse géométrique fournit également une justification théorique et une interprétation géométrique de l'équilibre entre la connectivité (due à la régularisation ℓ2) et la préservation des sous-espaces (due à la régularisation ℓ1) pour le clustering de sous-espaces par réseau élastique. Nos expériences montrent que la méthode d'ensemble actif proposée non seulement atteint des performances de clustering d'état de l'art, mais gère également efficacement des jeux de données à grande échelle.