
摘要
尽管大规模语言模型(LLMs)在自然语言处理(NLP)领域显著推动了技术前沿的发展,但在将其应用于下游任务时,仍面临成本高、响应延迟、可控性差以及隐私与安全方面的诸多挑战。因此,在某些场景下,可训练模型依然是更受青睐的选择。然而,这类模型通常仍需依赖人工标注数据以实现最佳性能,而人工标注数据的获取过程成本高昂且耗时。为缓解这一问题,已有多种技术尝试通过利用LLMs来减少人工标注工作量,包括自动标注或生成数据。尽管这些方法在特定应用中表现有效,但在实际部署中仍面临诸多挑战:数据标注需要精心筛选样本,而数据生成则依赖于针对具体任务设计的提示工程(prompt engineering)。本文提出了一种统一的数据生成流程,仅需提供一个格式示例即可适配广泛的任务类型,包括传统上难以处理的、语义信息匮乏的标签空间任务。实验结果表明,指令遵循型LLMs作为数据生成器具有极高的成本效益,且使用此类数据训练的模型在分布外(out-of-distribution)评估中表现优于使用人工标注数据训练的模型(性能提升最高达17.5%),同时在分布内(in-distribution)任务上仍保持相当的性能水平。这些发现对提升真实场景中部署的NLP系统的鲁棒性具有重要意义。