AutoGluon-Tabular : AutoML robuste et précis pour les données structurées

Nous introduisons AutoGluon-Tabular, un cadre open-source d’AutoML qui nécessite uniquement une ligne de code Python pour entraîner des modèles d’apprentissage automatique hautement précis à partir d’un jeu de données tabulaires non traité, tel qu’un fichier CSV. Contrairement aux cadres existants d’AutoML, dont l’accent est principalement mis sur la sélection de modèles ou d’hyperparamètres, AutoGluon-Tabular se distingue par son approche fondée sur l’ensemblage de nombreux modèles, empilés en plusieurs couches. Des expérimentations montrent que cette combinaison multi-couche de nombreux modèles exploite de manière plus efficace le temps d’entraînement alloué que la recherche du meilleur modèle unique. Une deuxième contribution réside dans une évaluation approfondie de plateformes publiques et commerciales d’AutoML, incluant TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon et Google AutoML Tables. Les tests effectués sur une série de 50 tâches de classification et de régression provenant de Kaggle et du benchmark OpenML AutoML révèlent qu’AutoGluon est plus rapide, plus robuste et nettement plus précis. Nous constatons que AutoGluon surpasse souvent la meilleure combinaison possible a posteriori de tous ses concurrents. Dans deux concours populaires de Kaggle, AutoGluon a surpassé 99 % des data scientists participants après seulement 4 heures d’entraînement sur les données brutes.