HyperAIHyperAI
il y a 4 jours

Évaluation des recommandations de podcasts par un jugement de LLM conscient du profil

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
Évaluation des recommandations de podcasts par un jugement de LLM conscient du profil
Résumé

L’évaluation des recommandations personnalisées demeure un défi central, notamment dans les domaines audio longs tels que les podcasts, où les métriques classiques en mode hors ligne souffrent d’un biais d’exposition, tandis que les méthodes en ligne telles que les tests A/B s’avèrent coûteuses et contraintes sur le plan opérationnel. Dans cet article, nous proposons un cadre novateur qui utilise des grands modèles linguistiques (LLM) comme juges hors ligne pour évaluer de manière évolutive et interprétable la qualité des recommandations de podcasts. Notre approche en deux étapes, sensible au profil utilisateur, commence par la construction de profils utilisateur en langage naturel, extraits à partir d’un historique d’écoute de 90 jours. Ces profils résument à la fois les intérêts thématiques et les schémas comportementaux, servant de représentations compactes et interprétables des préférences des utilisateurs. Contrairement à une approche basée sur des données brutes, nous utilisons ces profils pour fournir un contexte de haut niveau, riche sémantiquement, permettant au LLM de raisonner plus efficacement sur l’alignement entre les intérêts d’un utilisateur et les épisodes recommandés. Cette méthode réduit la complexité d’entrée et améliore l’interprétabilité. Le LLM est ensuite sollicité pour produire des jugements fins, ponctuels et par paires, fondés sur la correspondance entre le profil et l’épisode. Dans une étude contrôlée impliquant 47 participants, notre juge sensible au profil a reproduit les jugements humains avec une grande fidélité, et surpassé ou égalé une variante utilisant directement les historiques d’écoute bruts. Ce cadre permet une évaluation efficace et sensible au profil, adaptée aux tests itératifs et au choix de modèles dans les systèmes de recommandation.