HyperAIHyperAI

Command Palette

Search for a command to run...

Bewertung von Podcast-Empfehlungen mit profilbewussten LLM-as-a-Judge

Zusammenfassung

Die Bewertung personalisierter Empfehlungen bleibt eine zentrale Herausforderung, insbesondere in langformigen Audio-Domänen wie Podcasts, bei denen herkömmliche Offline-Metriken unter Expositionsverzerrung leiden und Online-Verfahren wie A/B-Tests kostspielig und operativ eingeschränkt sind. In diesem Paper stellen wir einen neuartigen Rahmen vor, der große Sprachmodelle (Large Language Models, LLMs) als Offline-Judges nutzt, um die Qualität von Podcast-Empfehlungen skalierbar und interpretierbar zu bewerten. Unser zweistufiger, profilbewusster Ansatz erstellt zunächst natürlichsprachliche Nutzerprofile, die aus 90 Tagen Hörverlauf abgeleitet werden. Diese Profile fassen sowohl thematische Interessen als auch Verhaltensmuster zusammen und dienen als kompakte, interpretierbare Repräsentationen der Nutzerpräferenzen. Anstatt das LLM mit Rohdaten zu konfrontieren, verwenden wir diese Profile, um ein hochwertiges, semantisch reichhaltiges Kontextfeld bereitzustellen, das dem LLM ermöglicht, präziser über die Übereinstimmung zwischen den Interessen eines Nutzers und den empfohlenen Episoden zu reflektieren. Dadurch wird die Eingabekomplexität reduziert und die Interpretierbarkeit verbessert. Anschließend wird das LLM aufgefordert, detaillierte punktweise und paarweise Urteile basierend auf der Passgenauigkeit zwischen Profil und Episode abzugeben. In einer kontrollierten Studie mit 47 Teilnehmern stimmten die Urteile unseres profilbewussten Judges mit menschlichen Beurteilungen mit hoher Treue überein und übertrafen oder erreichten die Leistung einer Variante, die auf Roh-Hörverläufen basierte. Der vorgestellte Rahmen ermöglicht eine effiziente, profilbasierte Evaluation für iterative Tests und Modellauswahl in Empfehlungssystemen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp