vor 4 Tagen

Bewertung von Podcast-Empfehlungen mit profilbewussten LLM-as-a-Judge

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

Details der Forschungsarbeit anzeigen

Bewertung von Podcast-Empfehlungen mit profilbewussten LLM-as-a-Judge

Abstract

Die Bewertung personalisierter Empfehlungen bleibt eine zentrale Herausforderung, insbesondere in langformigen Audio-Domänen wie Podcasts, bei denen herkömmliche Offline-Metriken unter Expositionsverzerrung leiden und Online-Verfahren wie A/B-Tests kostspielig und operativ eingeschränkt sind. In diesem Paper stellen wir einen neuartigen Rahmen vor, der große Sprachmodelle (Large Language Models, LLMs) als Offline-Judges nutzt, um die Qualität von Podcast-Empfehlungen skalierbar und interpretierbar zu bewerten. Unser zweistufiger, profilbewusster Ansatz erstellt zunächst natürlichsprachliche Nutzerprofile, die aus 90 Tagen Hörverlauf abgeleitet werden. Diese Profile fassen sowohl thematische Interessen als auch Verhaltensmuster zusammen und dienen als kompakte, interpretierbare Repräsentationen der Nutzerpräferenzen. Anstatt das LLM mit Rohdaten zu konfrontieren, verwenden wir diese Profile, um ein hochwertiges, semantisch reichhaltiges Kontextfeld bereitzustellen, das dem LLM ermöglicht, präziser über die Übereinstimmung zwischen den Interessen eines Nutzers und den empfohlenen Episoden zu reflektieren. Dadurch wird die Eingabekomplexität reduziert und die Interpretierbarkeit verbessert. Anschließend wird das LLM aufgefordert, detaillierte punktweise und paarweise Urteile basierend auf der Passgenauigkeit zwischen Profil und Episode abzugeben. In einer kontrollierten Studie mit 47 Teilnehmern stimmten die Urteile unseres profilbewussten Judges mit menschlichen Beurteilungen mit hoher Treue überein und übertrafen oder erreichten die Leistung einer Variante, die auf Roh-Hörverläufen basierte. Der vorgestellte Rahmen ermöglicht eine effiziente, profilbasierte Evaluation für iterative Tests und Modellauswahl in Empfehlungssystemen.