大数据合成的语言模型
Tang, Yihong ; Kong, Menglin ; Sun, Lijun
发布日期: 6/2/2025

摘要
生成能够真实反映现实世界分布统计结构的合成数据是数据建模中的一个基本挑战。传统方法通常依赖于强烈的参数假设或手动结构设计,在高维或异质领域中表现不佳。近期在大型语言模型(LLMs)方面的进展揭示了它们作为灵活、高维先验分布的潜力。然而,当应用于数据合成时,标准的基于LLM的采样方法效率低下,受固定上下文限制的影响,并且无法确保统计对齐。鉴于此,我们提出了LLMSynthor,这是一种用于数据合成的一般框架,可以将LLM转化为由分布反馈引导的结构感知模拟器。LLMSynthor将LLM视为非参数Copula模拟器,用于建模高阶依赖关系,并引入了LLM提议采样方法来生成有根据的提议分布,从而提高采样效率而无需拒绝采样。通过最小化汇总统计空间中的差异,迭代合成循环逐步对齐真实数据和合成数据,并逐渐发现和优化潜在的生成结构。我们在受控和现实世界环境中评估了LLMSynthor,使用涵盖隐私敏感领域的异质数据集(例如电子商务、人口和移动性),这些数据集包括结构化和非结构化格式的数据。LLMSynthor生成的合成数据显示出高度的统计保真度、实用价值和跨数据适应能力,使其成为经济学、社会科学、城市研究等领域中的宝贵工具。