2ヶ月前
条件付きGANを使用した表形式データのモデリング
Lei Xu; Maria Skoularidou; Alfredo Cuesta-Infante; Kalyan Veeramachaneni

要約
表形式データの各行の確率分布をモデル化し、現実的な合成データを生成することは容易なタスクではありません。表形式データには通常、離散値と連続値の列が混在しています。連続値の列は複数のモードを持つことがあり、一方で離散値の列はしばしば不均衡であるため、モデリングが困難となります。既存の統計的手法や深層ニューラルネットワークモデルでは、この種のデータを適切にモデル化することが難しいという問題があります。そこで我々はこれらの課題に対処するため、条件付きジェネレーティブ・アドバーザリアル・ネットワーク(Generative Adversarial Network: GAN)を使用したTGANを開発しました。公正かつ包括的な比較を行うために、7つのシミュレーションデータセットと8つの実際のデータセット、およびいくつかのベイジアンネットワークベースラインを使用してベンチマークを設計しました。TGANはほとんどの実際のデータセットにおいてベイジアン手法を上回る性能を示しましたが、他の深層学習手法では同様の結果を得ることができませんでした。