4日前

プロファイルを意識したLLMをジャッジとして用いたポッドキャスト推薦の評価

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
プロファイルを意識したLLMをジャッジとして用いたポッドキャスト推薦の評価
要約

パーソナライズド推薦の評価は、特にポッドキャストのような長時間音声コンテンツ分野において、中心的な課題の一つである。従来のオフライン評価指標は露出バイアス(exposure bias)の影響を受けやすく、一方でA/Bテストのようなオンライン手法はコストが高く、運用面での制約が大きい。本論文では、大規模言語モデル(LLM)をオフラインの評価者として活用することで、ポッドキャスト推薦の品質をスケーラブルかつ解釈可能な方法で評価する新たなフレームワークを提案する。本研究の二段階アプローチは、90日間の聴取履歴から抽出された自然言語形式のユーザー・プロファイルを構築することから始まる。これらのプロファイルは、トピック的な関心と行動パターンの両方を要約し、ユーザーの好みをコンパクトかつ解釈可能な形で表現する。Rawデータを直接提示するのではなく、こうしたプロファイルを用いることで、高レベルで意味的に豊かな文脈を提供し、LLMがユーザーの関心と推薦エピソードとの整合性についてより効果的に推論できるようにする。これにより入力の複雑さを低減し、解釈可能性を向上させる。その後、LLMはプロファイルとエピソードのマッチングに基づき、細粒度の点評価(pointwise judgment)および対比較評価(pairwise judgment)を実行するように指示される。47名の参加者を対象とした制御実験において、本研究のプロファイルを活用した評価者(judge)は人間の判断と高い整合性を示し、原始的な聴取履歴を用いたバリエーションと比較して同等または優れた性能を発揮した。本フレームワークは、レコメンデーションシステムにおける反復的なテストやモデル選定を効率的かつプロファイルに配慮した形で可能にする。