4 天前

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
基于用户画像感知的LLM-as-a-Judge的播客推荐评估
摘要

个性化推荐的评估仍是当前一个核心挑战,尤其在播客等长时音频领域,传统离线评估指标易受曝光偏差影响,而在线方法如A/B测试则成本高昂且受运营条件限制。本文提出一种新颖的评估框架,利用大语言模型(LLM)作为离线评判者,以可扩展且可解释的方式评估播客推荐的质量。我们提出的两阶段、用户画像感知方法,首先基于用户90天的收听历史构建自然语言形式的用户画像。这些画像综合概括了用户的主题兴趣与行为模式,作为用户偏好的紧凑且可解释的表征。与直接使用原始数据进行提示不同,我们采用这些画像为LLM提供高层次、语义丰富的上下文,使其能够更有效地推理用户兴趣与推荐内容之间的匹配程度,从而降低输入复杂度并提升结果的可解释性。随后,LLM基于画像与节目内容的匹配情况,输出细粒度的点对点及成对判断。在一项包含47名参与者的受控实验中,该画像感知的评判方法与人工判断高度一致,且在性能上优于或至少持平于采用原始收听历史的变体方法。该框架为推荐系统中的迭代测试与模型选择提供了高效、基于用户画像的评估能力。