Command Palette
Search for a command to run...
Deepro Choudhury Sinead Williamson Adam Goliński Ning Miao Freddie Bickford Smith et al

摘要
我们提出一种通用方法,通过序贯贝叶斯实验设计(Sequential Bayesian Experimental Design, BED)框架,提升大型语言模型(Large Language Models, LLMs)从用户或其他外部源中智能且自适应地获取信息的能力。该方法使LLMs能够作为高效的多轮对话代理,与外部环境进行交互式对接。我们所提出的方法称为BED-LLM(基于大型语言模型的贝叶斯实验设计),其核心思想是通过迭代选择能够最大化关于目标任务的期望信息增益(Expected Information Gain, EIG)的提问或查询,从而基于先前获取的响应不断优化信息收集过程。我们展示了如何基于LLM的信念分布构建的概率模型,以严谨的方式定义EIG,并深入剖析了其构建过程中的关键决策。BED-LLM取得成功的关键还在于一系列具体创新,包括:一种精心设计的EIG估计器,不完全依赖上下文内的更新来实现对先前响应的条件建模;以及一种针对候选查询提出的针对性策略。实验结果表明,在基于“20个问题”游戏的多种测试场景中,以及利用LLM主动推断用户偏好的任务中,BED-LLM相较于直接提示(direct prompting)LLM及其他自适应设计策略,均实现了显著的性能提升。