Minimalistisches unüberwachtes Lernen mit der dünnbesetzten Mannigfaltigkeitstransformation

Wir beschreiben eine minimalistische und interpretierbare Methode für das unüberwachte Lernen, die ohne Zuflucht zu Datenverstärkung (Data Augmentation), Hyperparameter-Tuning oder anderen Ingenieurdesigns auskommt und dennoch eine Leistung nahe an der der besten aktuellen selbstüberwachten Lernmethoden (SOTA SSL) erzielt. Unser Ansatz nutzt die dünnbesetzte Mannigfaltigkeitstransformation (sparse manifold transform), die dünnbesetztes Kodieren (sparse coding), Mannigfaltigkeitslernen (manifold learning) und langsame Merkmalsanalyse (slow feature analysis) vereint. Mit einer einlagigen deterministischen dünnbesetzten Mannigfaltigkeitstransformation erreicht man eine Genauigkeit von 99,3 % bei KNN Top-1 auf MNIST, 81,1 % bei KNN Top-1 auf CIFAR-10 und 53,2 % auf CIFAR-100. Durch eine einfache Graustufenverstärkung steigt die Genauigkeit des Modells auf 83,2 % bei KNN Top-1 auf CIFAR-10 und 57 % auf CIFAR-100. Diese Ergebnisse schließen den Abstand zwischen einfachen „White-Box“-Methoden und den besten aktuellen Methoden erheblich. Zudem liefern wir Visualisierungen, um zu erklären, wie eine unüberwachte Darstellungstransformation gebildet wird. Die vorgeschlagene Methode ist eng mit latente-Einbettungs-selbstüberwachten Methoden verbunden und kann als die einfachste Form von VICReg betrachtet werden. Obwohl zwischen unserem einfach konstruierten Modell und den besten aktuellen Methoden noch ein kleiner Leistungsunterschied besteht, deuten die Beweise darauf hin, dass dies eine vielversprechende Richtung für einen prinzipiellen und „White-Box“-Ansatz beim unüberwachten Lernen darstellt.