MambaTab : Un modèle plug-and-play pour l'apprentissage des données tabulaires

Malgré la prévalence des images et des textes dans l’apprentissage automatique, les données tabulaires restent largement utilisées dans divers domaines. Les modèles d’apprentissage profond existants, tels que les réseaux de neurones convolutifs ou les transformateurs, offrent de bonnes performances mais nécessitent une prétraitement et un ajustage étendus, ce qui limite leur accessibilité et leur scalabilité. Ce travail présente une approche innovante fondée sur un modèle à espace d’état structuré (SSM), nommé MambaTab, dédiée aux données tabulaires. Les SSM possèdent une forte capacité à extraire efficacement des représentations pertinentes à partir de données présentant des dépendances à longue portée. MambaTab exploite Mamba, une variante émergente de SSM, pour réaliser un apprentissage supervisé end-to-end sur des tableaux. Comparé aux meilleures méthodes actuelles, MambaTab atteint des performances supérieures tout en nécessitant significativement moins de paramètres, comme cela a été empiriquement confirmé sur divers jeux de données de référence. L’efficacité, la scalabilité, la généralisation et les gains prédictifs de MambaTab en font une solution légère, « plug-and-play », adaptée à divers types de données tabulaires, prometteuse pour étendre son application pratique à un plus large éventail de cas.