Skalierbare probabilistische Matrixfaktorisierung mit graphbasierten A-priori-Verteilungen

Bei der Matrixfaktorisierung kann die verfügbare Graphenseiteninformation nicht gut auf das Problem der Matrixvervollständigung abgestimmt sein, da sie Kanten enthält, die mit den aus der unvollständigen Datenmatrix gelernten latenten Merkmalsbeziehungen im Widerspruch stehen. Wir zeigen, dass das Entfernen dieser umstrittenen Kanten (contested) die Vorhersagegenauigkeit und Skalierbarkeit verbessert. Diese umstrittenen Kanten identifizieren wir durch eine hoch-effiziente grafische Lasso-Approximation. Die Identifikation und das Entfernen von umstrittenen Kanten fügen keinerlei rechnerische Komplexität zu modernen graphregulierten Matrixfaktorisierungsverfahren hinzu und bleiben linear in Bezug auf die Anzahl der Nicht-Nulleinträge. Der Rechenaufwand nimmt sogar proportional zur Anzahl der entfernten Kanten ab. Durch die Formulierung eines probabilistischen generativen Modells und die Verwendung von Erwartung-Maximierung, um die graphregulierte alternierende kleinste Quadrate (GRALS) zu erweitern, wird Konvergenz garantiert. Reiche simulierte Experimente illustrieren die gewünschten Eigenschaften des resultierenden Algorithmus. Bei realen Datensätzen demonstrieren wir eine verbesserte Vorhersagegenauigkeit bei weniger Graphenkanten (empirischer Beweis dafür, dass Graphenseiteninformation oft ungenau ist). Ein 300-tausend-dimensionaler Graph mit drei Millionen Kanten (Yahoo-Musik-Seiteninformation) kann auf einem Standard-Laptop in weniger als zehn Minuten analysiert werden, was die Effizienz unseres Graphenupdates zeigt.