15 天前

语言模型是现实的表格数据生成器

Vadim Borisov, Kathrin Seßler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci
语言模型是现实的表格数据生成器
摘要

表格数据是历史最悠久且应用最广泛的數據形式之一。然而,如何生成在原始數據特徵上保持一致的合成樣本,仍是表格數據生成領域面臨的重大挑戰。儘管來自計算機視覺領域的多種生成模型(如變分自編碼器或生成對抗網絡)已被適應用於表格數據生成,但針對近年興起的基於變壓器(Transformer)的大型語言模型(LLM)的研究仍相對有限。值得注意的是,這些大型語言模型本身也具有生成能力。為此,我們提出了 GReaT(Realistic Tabular Data Generation,真實表格數據生成)方法,該方法利用自回歸生成式大型語言模型,能夠生成既具有高度真實性又符合原始數據分布的合成表格數據。此外,GReaT 支持通過對任意特徵子集進行條件建模來捕捉表格數據的分佈,其餘特徵可在不增加額外計算開銷的情況下進行採樣。我們通過一系列實驗,從多個角度量化評估了所提方法生成數據的真實性與質量。實驗結果表明,GReaT 在多個真實世界與合成數據集上,無論是特徵類型多樣性還是數據規模差異,均能保持當前最優的性能表現。

语言模型是现实的表格数据生成器 | 最新论文 | HyperAI超神经