Generierung tabellarischer Daten mittels binärer Diffusion

Die Erzeugung synthetischer tabellarischer Daten ist entscheidend für maschinelles Lernen, insbesondere wenn echte Daten begrenzt oder sensibel sind. Traditionelle generative Modelle stoßen häufig auf Schwierigkeiten, da tabellarische Daten einzigartige Eigenschaften aufweisen, wie gemischte Datentypen und unterschiedliche Verteilungen, und erfordern komplexe Vorverarbeitungsschritte oder große vortrainierte Modelle. In diesem Paper stellen wir eine neuartige, verlustfreie binäre Transformationsmethode vor, die beliebige tabellarische Daten in feste, binäre Darstellungen umwandelt, sowie ein entsprechendes neues generatives Modell namens Binary Diffusion, speziell für binäre Daten konzipiert. Binary Diffusion nutzt die Einfachheit von XOR-Operationen zur Rauschaddition und -entfernung und setzt binäre Kreuzentropie als Verlustfunktion für das Training ein. Unser Ansatz entfällt jegliche umfangreiche Vorverarbeitung, komplexe Rauschparameter-Tuning- und Vortrainingsprozesse auf großen Datensätzen. Wir evaluieren unser Modell an mehreren etablierten Benchmark-Datensätzen für tabellarische Daten und zeigen, dass Binary Diffusion die Leistung bestehender State-of-the-Art-Modelle auf den Datensätzen Travel, Adult Income und Diabetes übertrifft, während es deutlich kleiner in Größe ist.