Génération de données tabulaires à l'aide de la diffusion binaire

La génération de données tabulaires synthétiques est essentielle dans le domaine de l’apprentissage automatique, en particulier lorsque les données réelles sont limitées ou sensibles. Les modèles génératifs traditionnels rencontrent souvent des difficultés dues aux caractéristiques propres aux données tabulaires, telles que la présence de types de données mixtes et de distributions variées, et nécessitent souvent des prétraitements complexes ou des modèles préentraînés volumineux. Dans cet article, nous proposons une nouvelle méthode de transformation binaire sans perte qui convertit n’importe quelle donnée tabulaire en représentations binaires de taille fixe, ainsi qu’un nouveau modèle génératif, appelé Binary Diffusion, spécifiquement conçu pour les données binaires. Binary Diffusion exploite la simplicité des opérations XOR pour ajouter et retirer du bruit, et utilise une fonction de perte binaire croisée pour l’entraînement. Notre approche élimine la nécessité de prétraitements étendus, de réglage complexe des paramètres de bruit et de préentraînement sur de grands jeux de données. Nous évaluons notre modèle sur plusieurs benchmarks populaires de données tabulaires, démontrant que Binary Diffusion surpasse les modèles de pointe existants sur les jeux de données Travel, Adult Income et Diabetes, tout en étant significativement plus petit en taille.