Recommandation zéro-shot comme modélisation du langage

La recommandation consiste à classer des éléments (par exemple des films ou des produits) en fonction des besoins individuels des utilisateurs. Les systèmes actuels s'appuient sur des techniques de filtrage collaboratif et de recommandation basée sur le contenu, qui nécessitent tous deux des données d'entraînement structurées. Nous proposons un cadre de recommandation utilisant des modèles linguistiques préentraînés (LM) disponibles « sur étagère », qui n'utilisent que des corpus de texte non structurés pour l'entraînement. Si un utilisateur ( u ) a aimé \textit{Matrix} et \textit{Inception}, nous construisons une requête textuelle, par exemple \textit{« Films comme Matrix, Inception, ${<}m{>}$ »}, afin d'estimer l'affinité entre ( u ) et ( m ) à l'aide de la probabilité fournie par le modèle linguistique. Nous justifions notre approche par une analyse de corpus, évaluons plusieurs structures de prompts, et comparons la recommandation basée sur les LM à la factorisation matricielle classique entraînée sur différentes configurations de données. Le code utilisé dans nos expériences est disponible publiquement (https://colab.research.google.com/drive/1f1mlZ-FGaLGdo5rPzxf3vemKllbh2esT?usp=sharing).