摘要

模型定制需要高质量且多样化的数据集，但获取此类数据仍耗时且人力成本高昂。尽管大语言模型（LLMs）在数据合成方面具有巨大潜力，但现有方法受限于初始数据有限、模型偏见以及提示词变化不足等问题，随着数据规模的扩大，导致合成数据的多样性受限且分布存在偏差。为应对这一挑战，我们提出 TREESYNTH——一种受决策树启发的、基于空间子空间划分的数据合成方法。该方法构建一棵空间划分树，将特定任务的完整数据空间（即根节点）递归地划分为多个互斥且完备的原子子空间（即叶节点），每个子空间具有独特且全面的属性特征，从而在每个原子子空间内进行样本合成之前，确保合成数据的区分性与覆盖性。这种全局划分与合成相结合的策略，最终将各子空间的样本整合为一个综合性数据集，有效避免了重复生成与空间坍缩问题，保障了大规模数据合成的多样性。此外，该空间划分树支持样本在原子子空间间的精准分配，使得现有数据集可被重新平衡，从而实现更均衡、更全面的分布。实验结果表明，在多个不同基准测试上的大量实验证实，TREESYNTH 在数据多样性、模型性能以及可扩展性方面均显著优于人工构建的数据集及同类数据合成方法，平均性能提升达10%。同时，TREESYNTH-平衡数据集在多个任务中持续带来性能提升，充分体现了其在重新分配现有数据以实现更全面覆盖及性能增强方面的高效应用价值。代码已公开，获取地址见此链接：https://url。

源 PDF 查看代码