Apprentissage de dictionnaire pour la factorisation matricielle massive

La factorisation de matrices creuses est un outil populaire pour obtenir des décompositions de données interprétables, qui sont également efficaces pour effectuer l'achèvement ou le débruitage des données. Sa pertinence pour les grands ensembles de données a été abordée par des méthodes en ligne et aléatoires, qui réduisent la complexité dans une des dimensions de la matrice, mais pas dans les deux. Dans cet article, nous traitons des matrices très grandes dans les deux dimensions. Nous proposons une nouvelle méthode de factorisation qui s'adapte gracieusement aux ensembles de données d'échelle téraoctet, qui ne pouvaient pas être traités par les algorithmes précédents en un temps raisonnable. Nous démontrons l'efficacité de notre approche sur des données fonctionnelles d'imagerie par résonance magnétique (fMRI) massives, ainsi que sur des problèmes d'achèvement de matrices pour les systèmes de recommandation, où nous obtenons des accélérations significatives par rapport aux méthodes de descente de coordonnées de pointe.