
要約
合成的な表形式データの生成は、機械学習において特に現実のデータが限られている場合や機密性の高い場合に重要である。従来の生成モデルは、表形式データ特有の特性——例えば混合データ型や多様な分布——によって課題に直面することが多く、複雑な前処理や大規模な事前学習モデルの利用を必要としていた。本論文では、任意の表形式データを固定サイズのバイナリ表現に変換する新しい損失なし(lossless)なバイナリ変換手法を提案し、そのバイナリ表現専用に設計された新たな生成モデル「Binary Diffusion」を導入する。Binary Diffusionは、ノイズの追加および除去にXOR演算の単純さを活用し、学習にはバイナリクロスエントロピー損失を採用している。本手法により、広範な前処理や複雑なノイズパラメータのチューニング、大規模データセットにおける事前学習の必要性が不要となる。我々は複数の代表的な表形式ベンチマークデータセット上でモデルを評価し、Travel、Adult Income、Diabetesデータセットにおいて既存の最先端モデルを上回る性能を示した一方で、モデルサイズは著しく小さく抑えられていることを確認した。