BERT-Sort: Ein Zero-shot-MLM-Semantik-Encoder für ordinale Merkmale in AutoML

Die Datenvorverarbeitung ist einer der zentralen Schritte beim Aufbau von maschinellen Lernpipelines für tabellarische Daten. Eine häufig implementierte Vorverarbeitungsoperation in AutoML-Systemen besteht darin, kategoriale Merkmale in numerische Merkmale zu transformieren. Typischerweise wird dies mittels einfacher alphabetischer Sortierung der kategorischen Werte realisiert, beispielsweise mithilfe von Funktionen wie OrdinalEncoder oder LabelEncoder in Scikit-Learn und H2O. Allerdings bestehen oft semantische Ordnungsbeziehungen zwischen den kategorischen Werten, wie beispielsweise bei Qualitätsstufen (z. B. [„sehr gut“ > „gut“ > „normal“ > „schlecht“]) oder Monaten (z. B. [„Jan“ < „Feb“ < „Mär“]). Diese semantischen Beziehungen werden von bisherigen AutoML-Ansätzen nicht ausgenutzt. In diesem Paper stellen wir BERT-Sort vor, einen neuartigen Ansatz zur semantischen Kodierung ordinaler kategorischer Werte mittels zero-shot Masked Language Models (MLM), angewendet im Kontext von AutoML für tabellarische Daten. Wir haben erstmals einen neuen Benchmark mit 42 Merkmalen aus 10 öffentlichen Datensätzen erstellt, um kategoriale Ordnungsmerkmale zu sortieren, wobei BERT-Sort im Vergleich zu bestehenden Ansätzen eine Verbesserung um 27 % bei der semantischen Kodierung ordinaler Werte erzielt. Wir führen eine umfassende Evaluation von BERT-Sort auf verschiedenen öffentlichen MLMs durch, darunter RoBERTa, XLM und DistilBERT. Zudem vergleichen wir die Leistungsfähigkeit von Rohdatensätzen gegenüber daten, die mittels BERT-Sort kodiert wurden, in verschiedenen AutoML-Plattformen wie AutoGluon, FLAML, H2O und MLJAR, um den vorgeschlagenen Ansatz in einer end-to-end-Szenario zu bewerten.