分层提示分类法:一种通用的大规模语言模型评估框架

评估大型语言模型(LLMs)在应对多样化任务时的有效性,对于深入理解其优势与局限至关重要。传统的评估方法通常在所有数据集上采用单一的提示策略,未能充分考虑不同任务之间复杂度的差异。为此,本文提出一种分层提示分类法(Hierarchical Prompting Taxonomy, HPT),该分类法基于一个由五个独特提示策略构成的分层提示框架(Hierarchical Prompt Framework, HPF),这些策略按照从最简单到最复杂的顺序排列,从而实现对LLMs更精准的评估,并提供更为清晰的认知视角。该分类法根据其规则,为数据集和LLMs分别赋予一个称为分层提示得分(Hierarchical Prompting Score, HP-Score)的量化指标,能够细致刻画模型在解决多样化任务时的表现能力,同时构建一种通用的任务复杂度度量标准。此外,本文还引入了自适应分层提示框架(Adaptive Hierarchical Prompt framework),可自动为每项任务选择最合适的提示策略,提升评估效率与适应性。本研究通过四个指令微调后的LLM——Llama 3 8B、Phi 3 3.8B、Mistral 7B和Gemma 7B,在四个代表性数据集(BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)和SamSum)上,对比分析了人工设定与自适应分层提示框架的性能表现。实验结果验证了HPT的有效性,为不同任务之间的比较以及LLM能力的评估提供了可靠依据。本研究推动了通用评估指标的发展,该指标可用于统一衡量数据集的任务复杂度以及LLM的实际能力。本文所提出的人工分层提示框架(HPF)与自适应分层提示框架均已开源,可供学术界与工业界广泛使用。