15 天前

基于二元扩散的表格数据生成

Vitaliy Kinakh, Slava Voloshynovskiy
基于二元扩散的表格数据生成
摘要

生成合成表格数据在机器学习中具有重要意义,尤其是在真实数据稀缺或敏感的情况下。传统的生成模型在处理表格数据时往往面临诸多挑战,这主要源于表格数据特有的复杂性,例如混合数据类型和多样化的分布特征,通常需要复杂的预处理步骤或依赖大规模预训练模型。本文提出一种新颖的无损二值化转换方法,可将任意表格数据转化为固定长度的二值表示,并进一步设计了一种专为二值数据量身定制的新型生成模型——Binary Diffusion。该模型利用异或(XOR)运算的简洁性实现噪声的添加与去除,并采用二值交叉熵损失函数进行训练。所提方法无需进行繁琐的预处理、复杂的噪声参数调优,也无需在大规模数据集上进行预训练。我们在多个主流表格数据集上对模型进行了评估,结果表明,Binary Diffusion在Travel、Adult Income和Diabetes等数据集上的表现优于现有最先进模型,同时模型体积显著更小。

基于二元扩散的表格数据生成 | 最新论文 | HyperAI超神经