BERT-Sort : Un encodeur sémantique MLM zéro-shot sur des caractéristiques ordinales pour l'AutoML

Le prétraitement des données constitue l'une des étapes clés dans la création de pipelines d'apprentissage automatique pour des données tabulaires. Parmi les opérations courantes de prétraitement implémentées dans les systèmes AutoML, on trouve le codage des caractéristiques catégorielles en caractéristiques numériques. Ce processus est généralement réalisé à l'aide d'un tri alphabétique simple sur les valeurs catégorielles, via des fonctions telles que OrdinalEncoder ou LabelEncoder disponibles dans Scikit-Learn et H2O. Toutefois, des relations ordinales sémantiques existent souvent entre les valeurs catégorielles, par exemple : le niveau de qualité (i.e., [« très bon » > « bon » > « moyen » > « médiocre »]) ou les mois de l’année (i.e., [« Jan » < « Fév » < « Mar »]). Ces relations sémantiques ne sont pas exploitées par les approches AutoML existantes. Dans ce papier, nous introduisons BERT-Sort, une nouvelle méthode pour encoder sémantiquement des valeurs catégorielles ordinales à l’aide de modèles de langage à masquage zéro (MLM) et l’appliquons à l’AutoML pour des données tabulaires. Nous avons établi pour la première fois un nouveau benchmark comprenant 42 caractéristiques issues de 10 jeux de données publics afin d’évaluer le tri des valeurs catégorielles ordinales, dans lequel BERT-Sort améliore significativement l’encodage sémantique des valeurs ordinales par rapport aux approches existantes, avec une amélioration de 27 %. Nous réalisons une évaluation approfondie de BERT-Sort sur différents modèles MLM publics, tels que RoBERTa, XLM et DistilBERT. Nous comparons également les performances des jeux de données bruts aux jeux de données encodés par BERT-Sort sur plusieurs plateformes AutoML, notamment AutoGluon, FLAML, H2O et MLJAR, afin d’évaluer l’approche proposée dans un scénario end-to-end.