Command Palette
Search for a command to run...
Ali Montazeralghaem Guy Tennenholtz Craig Boutilier Ofer Meshi

摘要
大型语言模型(LLMs)使得推荐系统能够通过开放式的对话界面与用户进行交互。为了个性化地回应用户,尤其在用户历史数据有限的情况下,准确获取用户偏好至关重要。一种获取更多信息的方法是向用户提出澄清性问题。然而,在不同领域中生成有效且连贯的序列化澄清问题仍是一项挑战。为此,我们提出一种新颖的方法,用于训练LLM生成能够逐步揭示用户偏好的序列问题。该方法受到扩散模型的启发,采用两阶段流程:首先,从用户画像出发,正向过程生成澄清性问题以获取用户回答,随后逐步移除这些回答,相当于对用户画像逐步引入“噪声”;反向过程则训练模型通过学习提出有效的澄清问题,实现对“噪声”用户画像的“去噪”,从而恢复出更准确的用户偏好。实验结果表明,该方法显著提升了LLM在提出引导性问题(funnel questions)以及高效获取用户偏好方面的能力。