Réseaux de Clustering de Sous-espaces Profonds à Vue Multiple

Le clustering de sous-espaces multi-vues vise à découvrir la structure intrinsèque des données en fusionnant plusieurs vues d'informations complémentaires. La plupart des méthodes existantes extraient d'abord plusieurs types de caractéristiques conçues manuellement, puis apprennent une matrice d'affinité conjointe pour le clustering. L'inconvénient de cette approche réside dans deux aspects : 1) les relations multi-vues ne sont pas intégrées dans l'apprentissage des caractéristiques, et 2) la manière d'apprentissage de bout en bout du deep learning n'est pas adaptée au clustering multi-vues. Même lorsque des caractéristiques profondes ont été extraites, il s'agit d'un problème non trivial de choisir un backbone approprié pour le clustering sur différents jeux de données. Pour résoudre ces problèmes, nous proposons les Réseaux de Clustering de Sous-espaces Profonds Multi-vues (MvDSCN), qui apprennent une matrice d'autoreprésentation multi-vues de manière end-to-end. Le MvDSCN est composé de deux sous-réseaux, à savoir un réseau de diversité (Dnet) et un réseau d'universalité (Unet). Un espace latent est construit à l'aide d'autoencodeurs convolutifs profonds, et une matrice d'autoreprésentation est apprise dans cet espace latent à l'aide d'une couche entièrement connectée. Dnet apprend des matrices d'autoreprésentation spécifiques à chaque vue, tandis qu'Unet apprend une matrice d'autoreprésentation commune pour toutes les vues. Pour exploiter la complémentarité des représentations multi-vues, le critère d'indépendance Hilbert-Schmidt (HSIC) est introduit comme régulariseur de diversité capturant les relations inter-vues non linéaires et d'ordre supérieur. Étant donné que différentes vues partagent le même espace étiqueté, les matrices d'autoreprésentation de chaque vue sont alignées sur celle commune par régularisation universelle. Le MvDSCN unifie également plusieurs backbones pour améliorer les performances du clustering et éviter la nécessité de sélectionner un modèle. Les expériences démontrent la supériorité du MvDSCN.