
摘要
建模表格数据中的行的概率分布并生成逼真的合成数据是一项非 trivial 的任务。表格数据通常包含离散列和连续列的混合。连续列可能具有多个模式,而离散列有时则存在不平衡现象,这使得建模变得困难。现有的统计模型和深度神经网络模型在处理这类数据时往往表现不佳。为此,我们设计了 TGAN(Tabular Generative Adversarial Network),该模型利用条件生成对抗网络来应对这些挑战。为了进行公平且全面的比较,我们设计了一个基准测试,其中包括 7 个模拟数据集和 8 个真实数据集,并选择了几种贝叶斯网络作为基线模型。实验结果表明,TGAN 在大多数真实数据集上优于贝叶斯方法,而其他深度学习方法则未能达到相同的效果。