Command Palette
Search for a command to run...
LimiX : Libérer le potentiel de modélisation des données structurées pour une intelligence généraliste
Xingxuan Zhang Gang Ren Han Yu Hao Yuan Hui Wang et al

Résumé
Nous soutenons que l’avancement vers une intelligence générale exige des modèles fondamentaux complémentaires, ancrés dans le langage, le monde physique et les données structurées. Ce rapport présente LimiX, le premier modèle de grandes données structurées (LDMs) développé dans le cadre de cette initiative. LimiX traite les données structurées comme une distribution conjointe sur les variables et la présence de valeurs manquantes, permettant ainsi de traiter une large gamme de tâches sur tableaux grâce à une prédiction conditionnelle basée sur des requêtes, via un seul modèle. LimiX est préentraîné à l’aide d’un modèle de distribution conjointe masquée, avec une objectif épisodique conditionnel au contexte : le modèle prédit pour des sous-ensembles de requêtes conditionnellement au contexte spécifique à chaque jeu de données, ce qui permet une adaptation rapide et sans entraînement supplémentaire au moment de l’inférence. Nous évaluons LimiX sur 10 benchmarks de grandes données structurées, couvrant des régimes variés en taille d’échantillon, dimensionnalité des caractéristiques, nombre de classes, rapport entre caractéristiques catégorielles et numériques, taux de données manquantes, et rapports entre échantillons et caractéristiques. Avec un seul modèle et une interface unifiée, LimiX dépasse de manière cohérente des modèles de référence performants, notamment les arbres à gradient, les réseaux profonds pour données tabulaires, les récents modèles fondamentaux pour données tabulaires, ainsi que les ensembles automatisés, comme illustré sur les figures 1 et 2. Cette supériorité se maintient sur une large gamme de tâches — classification, régression, imputation de valeurs manquantes, génération de données — souvent avec des écarts significatifs, tout en évitant les architectures spécifiques à chaque tâche ou l’entraînement personnalisé pour chaque tâche. Tous les modèles LimiX sont accessibles publiquement sous licence Apache 2.0.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.