15日前
言語モデルは現実的なテーブルデータ生成器である
Vadim Borisov, Kathrin Seßler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci

要約
表形式データは、最も古くから存在する形態のデータの一つであり、広く普及している。しかし、元のデータの特性を再現した合成サンプルの生成は、依然として表形式データにおいて大きな課題である。コンピュータビジョン分野で広く用いられている生成モデル(例えば変分自己符号化器や生成的対抗ネットワーク)は、表形式データ生成に適応されたものの、近年注目を集めているトランスフォーマーに基づく大規模言語モデル(LLM)については、その生成的な性質を活かした研究はまだ少ない。本研究では、実際の表形式データに類似した高品質な合成データを生成するため、自己回帰型の生成的LLMを活用したGReaT(Generation of Realistic Tabular data)を提案する。さらに、GReaTは任意の特徴量サブセットを条件として設定することで、表形式データの分布をモデル化可能であり、残りの特徴量は追加の計算コストなしにサンプリング可能である。複数の視点から生成されたデータサンプルの妥当性と品質を定量的に評価する一連の実験を通じて、本手法の有効性を示した。その結果、異種の特徴量タイプを有し、サイズも多様な多数の実世界データセットおよび合成データセットにおいて、GReaTが最先端の性能を維持していることが確認された。