17 天前

GPT-4o作为黄金标准:一种可扩展且通用的过滤语言模型预训练数据的方法

Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak
GPT-4o作为黄金标准:一种可扩展且通用的过滤语言模型预训练数据的方法
摘要

大规模语言模型需要海量的高质量训练数据,但如何有效筛选网络规模的数据集仍是重大挑战。本文表明,GPT-4o在识别高质量训练数据方面表现出色,但其高昂的成本使其难以在全网规模下应用。为此,我们提出了SIEVE——一种轻量级替代方案,其性能可与GPT-4o相当,成本却不足其1%。SIEVE的执行效率极高,其完成500次数据过滤操作的成本,仅相当于一次GPT-4o过滤调用的开销。SIEVE的核心在于将GPT-4o与轻量级文本分类模型无缝集成,通过主动学习机制,仅需少量GPT-4o调用即可在后台对轻量模型进行微调。模型训练完成后,即可在极低成本下达到与GPT-4o相媲美的过滤效果。借助不同的过滤提示(prompt),SIEVE能够高效地从网络规模语料库中筛选出适用于通用或特定领域任务的高质量数据——这一能力在当前高质量领域专用数据集严重匮乏的背景下尤为珍贵。通过自动评估与人工评估相结合的大量实验验证,SIEVE在五个高度专业化过滤任务上的表现与GPT-4o基本相当。此外,在针对网络爬取数据集的质量过滤任务中,我们在DataComp-LM挑战赛中进一步证明,SIEVE在选取大语言模型预训练数据方面,显著优于当前最先进的质量过滤方法。