Sprachmodelle sind realistische Generatoren tabellarischer Daten

Tabellarische Daten zählen zu den ältesten und am weitesten verbreiteten Datentypen. Dennoch bleibt die Erzeugung synthetischer Datenproben mit den charakteristischen Eigenschaften der Originaldaten eine erhebliche Herausforderung bei tabellarischen Daten. Während viele generative Modelle aus dem Bereich des Computer Vision – wie beispielsweise Variational Autoencoders oder Generative Adversarial Networks – für die Erzeugung tabellarischer Daten adaptiert wurden, wurde bisher weniger Forschung auf neuere transformerbasierte große Sprachmodelle (LLMs) gerichtet, die ebenfalls generativ in ihrer Natur sind. Hierfür stellen wir GReaT (Generation of Realistic Tabular data) vor, das ein autoregressives generatives LLM nutzt, um synthetische und dennoch hochrealistische tabellarische Daten zu erzeugen. Darüber hinaus kann GReaT Verteilungen tabellarischer Daten modellieren, indem es auf beliebige Teilmengen von Merkmalen bedingt wird; die verbleibenden Merkmale werden ohne zusätzlichen Aufwand abgetastet. Wir demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes in einer Reihe von Experimenten, die die Gültigkeit und Qualität der generierten Datensamples aus mehreren Perspektiven quantifizieren. Wir stellen fest, dass GReaT eine state-of-the-art-Leistung über zahlreiche reale und synthetische Datensätze mit heterogenen Merkmaltypen und unterschiedlichen Größen beibehält.