BERT-Sort: Ein Zero-shot-MLM-Semantik-Encoder für ordinale Merkmale in AutoML
{Mukul Prasad Lei Liu Wei-Peng Chen Mehdi Bahrami}

Abstract
Die Datenvorverarbeitung ist einer der zentralen Schritte beim Aufbau von maschinellen Lernpipelines für tabellarische Daten. Eine häufig implementierte Vorverarbeitungsoperation in AutoML-Systemen besteht darin, kategoriale Merkmale in numerische Merkmale zu transformieren. Typischerweise wird dies mittels einfacher alphabetischer Sortierung der kategorischen Werte realisiert, beispielsweise mithilfe von Funktionen wie OrdinalEncoder oder LabelEncoder in Scikit-Learn und H2O. Allerdings bestehen oft semantische Ordnungsbeziehungen zwischen den kategorischen Werten, wie beispielsweise bei Qualitätsstufen (z. B. [„sehr gut“ > „gut“ > „normal“ > „schlecht“]) oder Monaten (z. B. [„Jan“ < „Feb“ < „Mär“]). Diese semantischen Beziehungen werden von bisherigen AutoML-Ansätzen nicht ausgenutzt. In diesem Paper stellen wir BERT-Sort vor, einen neuartigen Ansatz zur semantischen Kodierung ordinaler kategorischer Werte mittels zero-shot Masked Language Models (MLM), angewendet im Kontext von AutoML für tabellarische Daten. Wir haben erstmals einen neuen Benchmark mit 42 Merkmalen aus 10 öffentlichen Datensätzen erstellt, um kategoriale Ordnungsmerkmale zu sortieren, wobei BERT-Sort im Vergleich zu bestehenden Ansätzen eine Verbesserung um 27 % bei der semantischen Kodierung ordinaler Werte erzielt. Wir führen eine umfassende Evaluation von BERT-Sort auf verschiedenen öffentlichen MLMs durch, darunter RoBERTa, XLM und DistilBERT. Zudem vergleichen wir die Leistungsfähigkeit von Rohdatensätzen gegenüber daten, die mittels BERT-Sort kodiert wurden, in verschiedenen AutoML-Plattformen wie AutoGluon, FLAML, H2O und MLJAR, um den vorgeschlagenen Ansatz in einer end-to-end-Szenario zu bewerten.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| automl-on-ordinaldataset | Zero-shot-BERT-SORT | 1:1 Accuracy: +55% |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.