HyperAIHyperAI

Command Palette

Search for a command to run...

语言模型是现实的表格数据生成器

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

摘要

表格数据是历史最悠久且应用最广泛的數據形式之一。然而,如何生成在原始數據特徵上保持一致的合成樣本,仍是表格數據生成領域面臨的重大挑戰。儘管來自計算機視覺領域的多種生成模型(如變分自編碼器或生成對抗網絡)已被適應用於表格數據生成,但針對近年興起的基於變壓器(Transformer)的大型語言模型(LLM)的研究仍相對有限。值得注意的是,這些大型語言模型本身也具有生成能力。為此,我們提出了 GReaT(Realistic Tabular Data Generation,真實表格數據生成)方法,該方法利用自回歸生成式大型語言模型,能夠生成既具有高度真實性又符合原始數據分布的合成表格數據。此外,GReaT 支持通過對任意特徵子集進行條件建模來捕捉表格數據的分佈,其餘特徵可在不增加額外計算開銷的情況下進行採樣。我們通過一系列實驗,從多個角度量化評估了所提方法生成數據的真實性與質量。實驗結果表明,GReaT 在多個真實世界與合成數據集上,無論是特徵類型多樣性還是數據規模差異,均能保持當前最優的性能表現。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供