Tiefe multimodale Subraum-Clustering-Netzwerke

Wir präsentieren Ansätze auf Basis von Faltungsneuronalen Netzen (CNN) für unüberwachtes multimodales Subraumclustering. Das vorgeschlagene Framework besteht aus drei Hauptstufen: einem multimodalen Encoder, einer selbstausdrückenden Schicht und einem multimodalen Decoder. Der Encoder nimmt multimodale Daten als Eingabe entgegen und fusioniert sie zu einer latente Raumrepräsentation. Die selbstausdrückende Schicht ist verantwortlich für die Durchsetzung der Selbstausdruckseigenschaft und die Erstellung einer Affinitätsmatrix, die den Datenspunkten entspricht. Der Decoder rekonstruiert die ursprünglichen Eingabedaten. Das Netzwerk verwendet während des Trainings den Abstand zwischen der Rekonstruktion des Decoders und den ursprünglichen Eingaben. Wir untersuchen Früh-, Spät- und Zwischenfusionstechniken und schlagen drei verschiedene Encoder vor, die diesen Techniken entsprechen, für räumliche Fusion. Die selbstausdrückenden Schichten und die multimodalen Decoders sind im Wesentlichen gleich für verschiedene räumliche Fusion-basierte Ansätze. Neben verschiedenen räumliche Fusion-basierten Methoden wird auch ein Affinitätsfusion-basierendes Netzwerk vorgeschlagen, bei dem die selbstausdrückende Schicht für verschiedene Modalitäten identisch durchgesetzt wird. Ausführliche Experimente mit drei Datensätzen zeigen, dass die vorgeschlagenen Methoden erheblich besser abschneiden als die bislang besten multimodal basierten Subraumclusteringmethoden.