Unendliche Empfehlungsnetzwerke: Ein datenzentrierter Ansatz

Wir nutzen den Neural Tangent Kernel und seine Äquivalenz zur Training von unendlich breiten neuronalen Netzwerken, um $\infty$-AE zu entwickeln: einen Autoencoder mit unendlich breiten Bottleneck-Schichten. Das Ergebnis ist ein hochausdrucksstarkes, dennoch einfaches Empfehlungsmodell mit nur einem Hyperparameter und einer geschlossenen Lösung. Aufgrund der Einfachheit von $\infty$-AE entwickeln wir zudem Distill-CF, um winzige, hochfidele Datensummen zu erzeugen, die die wesentlichen Erkenntnisse aus den extrem großen und spärlichen Nutzer-Item-Interaktionsmatrizen verdichten, um anschließende Datennutzung – wie z. B. Modelltraining, Inferenz oder Architektursuche – effizient und präzise zu gestalten. Dieser Ansatz verfolgt eine datenzentrierte Perspektive im Bereich der Empfehlungssysteme, bei der wir die Qualität der protokollierten Nutzerfeedback-Daten für nachfolgende Modellierung verbessern, unabhängig vom zugrundeliegenden Lernalgorithmus. Insbesondere nutzen wir den Ansatz der differenzierbaren Gumbel-Stichprobung, um die inhärente Datenheterogenität, Sparsamkeit und halbstrukturierte Natur der Daten zu bewältigen, während gleichzeitig Skalierbarkeit für Datensätze mit Hunderten Millionen von Nutzer-Item-Interaktionen gewährleistet ist. Beide vorgeschlagenen Ansätze übertrafen ihre jeweiligen State-of-the-Art-Verfahren erheblich, und in Kombination erreichen wir bei lediglich 0,1 % der ursprünglichen Datengröße eine Leistung von 96–105 % von $\infty$-AE auf dem vollen Datensatz. Dies führt uns zu der unerwarteten Frage: Ist mehr Daten tatsächlich das, was man für bessere Empfehlungen benötigt?