Wörterbuchlernen für die Faktorisierung großer Matrizen

Die dünnbesetzte Matrixfaktorisierung ist ein weit verbreitetes Werkzeug zur Erhaltung interpretierbarer Datenzerlegungen, die auch effektiv zur Datenvervollständigung oder -bereinigung eingesetzt werden können. Die Anwendbarkeit auf große Datensätze wurde durch Online- und randomisierte Methoden angegangen, die die Komplexität in einer der Matrixdimensionen reduzieren, jedoch nicht in beiden. In dieser Arbeit adressieren wir sehr große Matrizen in beiden Dimensionen. Wir schlagen eine neue Faktorisierungsmethode vor, die sich elegant auf Terabyte-skalierte Datensätze erweitert, die von früheren Algorithmen nicht innerhalb eines vertretbaren Zeitrahmens verarbeitet werden konnten. Wir zeigen die Effizienz unseres Ansatzes anhand massiver funktioneller Magnetresonanztomografie (fMRT)-Daten und an Matrix vervollständigungsproblemen für Empfehlungssysteme, bei denen wir im Vergleich zu den neuesten Koordinatenabstiegsverfahren erhebliche Beschleunigungen erzielen.