Réseaux de recommandation infinis : une approche centrée sur les données

Nous exploitons le noyau tangent neural (Neural Tangent Kernel) et son équivalence avec l'entraînement de réseaux de neurones infiniment larges afin de concevoir $\infty$-AE : un autoencodeur doté de couches de bottleneck infiniment larges. Le résultat est un modèle de recommandation à la fois hautement expressif et extrêmement simple, ne comportant qu’un seul hyperparamètre et offrant une solution analytique fermée. Grâce à la simplicité de $\infty$-AE, nous développons également Distill-CF, une méthode permettant de générer de petits résumés de données à haute fidélité, qui condensent les connaissances les plus importantes provenant de matrices d’interactions utilisateur-article extrêmement grandes et creuses, afin d’optimiser leur utilisation ultérieure — comme l’entraînement de modèles, l’inférence, la recherche d’architecture, etc. Cette approche adopte une perspective centrée sur les données en recommandation, visant à améliorer la qualité des données d’interactions utilisateur enregistrées pour les modèles ultérieurs, indépendamment de l’algorithme d’apprentissage utilisé. Nous exploitons particulièrement le concept d’échantillonnage différentiable Gumbel pour gérer l’hétérogénéité inhérente des données, leur sparsité et leur structure semi-structurée, tout en assurant une scalabilité à des ensembles de données comptant des centaines de millions d’interactions utilisateur-article. Les deux approches proposées surpassent significativement leurs états de l’art respectifs, et lorsqu’elles sont combinées, nous observons une performance de $\infty$-AE atteignant 96 à 105 % sur l’ensemble complet des données, avec seulement 0,1 % de la taille initiale du jeu de données. Cela nous amène à explorer une question contre-intuitive : les grandes quantités de données sont-elles vraiment nécessaires pour de meilleures recommandations ?