HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachmodelle sind realistische Generatoren tabellarischer Daten

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

Zusammenfassung

Tabellarische Daten zählen zu den ältesten und am weitesten verbreiteten Datentypen. Dennoch bleibt die Erzeugung synthetischer Datenproben mit den charakteristischen Eigenschaften der Originaldaten eine erhebliche Herausforderung bei tabellarischen Daten. Während viele generative Modelle aus dem Bereich des Computer Vision – wie beispielsweise Variational Autoencoders oder Generative Adversarial Networks – für die Erzeugung tabellarischer Daten adaptiert wurden, wurde bisher weniger Forschung auf neuere transformerbasierte große Sprachmodelle (LLMs) gerichtet, die ebenfalls generativ in ihrer Natur sind. Hierfür stellen wir GReaT (Generation of Realistic Tabular data) vor, das ein autoregressives generatives LLM nutzt, um synthetische und dennoch hochrealistische tabellarische Daten zu erzeugen. Darüber hinaus kann GReaT Verteilungen tabellarischer Daten modellieren, indem es auf beliebige Teilmengen von Merkmalen bedingt wird; die verbleibenden Merkmale werden ohne zusätzlichen Aufwand abgetastet. Wir demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes in einer Reihe von Experimenten, die die Gültigkeit und Qualität der generierten Datensamples aus mehreren Perspektiven quantifizieren. Wir stellen fest, dass GReaT eine state-of-the-art-Leistung über zahlreiche reale und synthetische Datensätze mit heterogenen Merkmaltypen und unterschiedlichen Größen beibehält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp