问我任何问题:一种简单的LLM提示策略

大型语言模型(LLMs)仅通过提供一个自然语言提示(prompt)来演示任务的执行方式,即可无需额外训练便直接迁移到新任务上。然而,提示工程(prompting)过程极为脆弱:提示的微小改动可能导致模型输出产生显著波动。因此,研究者们往往投入大量精力,致力于设计出“完美”的提示。为减轻提示设计所带来的高成本,我们提出一个新思路:与其追求单一“完美”提示,不如生成多个有效但不完美的提示,并通过聚合这些提示的结果,形成高质量的提示策略。我们的观察促使我们提出了名为“ASK ME ANYTHING”(AMA)的新型提示方法。首先,我们深入分析了有效提示的格式,发现鼓励开放生成的问答类提示(如“谁去了公园?”)通常优于限制模型输出形式的提示(如“约翰去了公园。请输出真或假。”)。在此基础上,我们的方法递归地利用大语言模型自身,将原始任务输入自动转换为高效的问答格式。随后,我们使用这些生成的提示对输入样本进行多次预测,获得多个带有噪声的预测结果。我们发现,不同提示的准确率差异显著,且预测之间存在复杂的依赖关系,因此我们引入弱监督(weak supervision)机制——一种用于融合噪声预测结果的通用方法——以生成最终的预测输出。我们在多个开源模型系列(包括EleutherAI、BLOOM、OPT和T0)以及不同模型规模(参数量从1.25亿到1750亿)上对AMA方法进行了评估。结果表明,AMA在平均性能上相比少样本(few-shot)基线提升了10.2%。该简单而有效的策略使得开源的GPT-J-6B模型在20个主流基准测试中的15个上达到甚至超越了少样本调优的GPT-3-175B模型的表现。在这些任务的平均性能上,GPT-J-6B已全面超越少样本GPT-3-175B。我们已将相关代码开源,欢迎查阅:https://github.com/HazyResearch/ama_prompting