Les Modèles de Langage sont des Générateurs Réalistes de Données Tabulaires

Les données tabulaires constituent l’un des formats de données les plus anciens et les plus répandus. Toutefois, la génération d’échantillons synthétiques préservant les caractéristiques des données d’origine reste un défi majeur pour les données tabulaires. Bien que de nombreux modèles génératifs issus du domaine de la vision par ordinateur — tels que les autoencodeurs variationnels ou les réseaux adverses génératifs — aient été adaptés à la génération de données tabulaires, peu de recherches se sont concentrées sur les récents modèles de langage à grande échelle (LLM) basés sur l’architecture Transformer, qui sont également intrinsèquement génératifs. À cet effet, nous proposons GReaT (Generation of Realistic Tabular data), un modèle qui exploite un LLM génératif auto-régressif pour produire des échantillons synthétiques de données tabulaires à la fois réalistes et fidèles aux distributions d’origine. En outre, GReaT permet de modéliser les distributions de données tabulaires en conditionnant sur n’importe quel sous-ensemble de caractéristiques ; les caractéristiques restantes sont alors échantillonnées sans surcoût computationnel supplémentaire. Nous démontrons l’efficacité de l’approche proposée à travers une série d’expériences quantifiant la validité et la qualité des échantillons générés sous plusieurs angles. Nos résultats montrent que GReaT atteint des performances de pointe sur de nombreuses bases de données réelles et synthétiques, caractérisées par des types de caractéristiques hétérogènes et des tailles variées.