HyperAIHyperAI

Command Palette

Search for a command to run...

Les Modèles de Langage sont des Générateurs Réalistes de Données Tabulaires

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

Résumé

Les données tabulaires constituent l’un des formats de données les plus anciens et les plus répandus. Toutefois, la génération d’échantillons synthétiques préservant les caractéristiques des données d’origine reste un défi majeur pour les données tabulaires. Bien que de nombreux modèles génératifs issus du domaine de la vision par ordinateur — tels que les autoencodeurs variationnels ou les réseaux adverses génératifs — aient été adaptés à la génération de données tabulaires, peu de recherches se sont concentrées sur les récents modèles de langage à grande échelle (LLM) basés sur l’architecture Transformer, qui sont également intrinsèquement génératifs. À cet effet, nous proposons GReaT (Generation of Realistic Tabular data), un modèle qui exploite un LLM génératif auto-régressif pour produire des échantillons synthétiques de données tabulaires à la fois réalistes et fidèles aux distributions d’origine. En outre, GReaT permet de modéliser les distributions de données tabulaires en conditionnant sur n’importe quel sous-ensemble de caractéristiques ; les caractéristiques restantes sont alors échantillonnées sans surcoût computationnel supplémentaire. Nous démontrons l’efficacité de l’approche proposée à travers une série d’expériences quantifiant la validité et la qualité des échantillons générés sous plusieurs angles. Nos résultats montrent que GReaT atteint des performances de pointe sur de nombreuses bases de données réelles et synthétiques, caractérisées par des types de caractéristiques hétérogènes et des tailles variées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp