AutoGluon-Tabular: Robust und genaue AutoML für strukturierte Daten

Wir stellen AutoGluon-Tabular vor, einen Open-Source-AutoML-Framework, der lediglich eine einzige Zeile Python-Code erfordert, um hochgenaue maschinelle Lernmodelle auf unverarbeiteten tabellarischen Datensätzen wie einer CSV-Datei zu trainieren. Im Gegensatz zu bestehenden AutoML-Frameworks, die hauptsächlich auf die Auswahl von Modellen und Hyperparametern fokussieren, erreicht AutoGluon-Tabular seine Leistungsfähigkeit durch die Ensemblebildung mehrerer Modelle, die in mehreren Schichten gestapelt werden. Experimente zeigen, dass unsere mehrschichtige Kombination vieler Modelle eine effizientere Nutzung der bereitgestellten Trainingszeit bietet als die Suche nach dem besten einzelnen Modell. Ein zweiter Beitrag liegt in einer umfassenden Evaluation öffentlicher und kommerzieller AutoML-Plattformen, darunter TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon und Google AutoML Tables. Tests auf einer Reihe von 50 Klassifizierungs- und Regressionsaufgaben aus Kaggle und dem OpenML AutoML Benchmark ergeben, dass AutoGluon schneller, robuster und deutlich genauer ist. Wir stellen fest, dass AutoGluon häufig sogar die bestmögliche Kombination aller Konkurrenten im Nachhinein übertrifft. In zwei populären Kaggle-Wettbewerben schlug AutoGluon nach lediglich vier Stunden Training auf den Rohdaten 99 % der teilnehmenden Datenwissenschaftler.