Modellierung von tabellarischen Daten mit bedingten GAN

Das Modellieren der Wahrscheinlichkeitsverteilung von Zeilen in tabellarischen Daten und das Generieren realistischer synthetischer Daten ist eine nicht triviale Aufgabe. Tabellarische Daten enthalten in der Regel eine Mischung aus diskreten und kontinuierlichen Spalten. Kontinuierliche Spalten können mehrere Modi aufweisen, während diskrete Spalten manchmal unbalanciert sind, was das Modellieren erschwert. Bestehende statistische und tiefe neuronale Netzwerke scheitern daran, diese Art von Daten angemessen zu modellieren. Wir entwickeln TGAN, das ein bedingtes generatives adversariales Netzwerk verwendet, um diese Herausforderungen zu bewältigen. Um einen fairen und gründlichen Vergleich zu ermöglichen, gestalten wir eine Benchmark-Suite mit 7 simulierten und 8 realen Datensätzen sowie mehreren Bayes-Netz-Baselines. TGAN übertrifft die Bayes-Methoden bei den meisten realen Datensätzen, während andere Deep-Learning-Methoden dies nicht konnten.