9 天前

AutoGluon-Tabular:面向结构化数据的鲁棒且精准的AutoML

Nick Erickson, Jonas Mueller, Alexander Shirkov, Hang Zhang, Pedro Larroy, Mu Li, Alexander Smola
AutoGluon-Tabular:面向结构化数据的鲁棒且精准的AutoML
摘要

我们推出了 AutoGluon-Tabular,这是一个开源的自动机器学习(AutoML)框架,仅需一行 Python 代码即可在未经处理的表格型数据(如 CSV 文件)上训练出高精度的机器学习模型。与现有 AutoML 框架主要聚焦于模型和超参数选择不同,AutoGluon-Tabular 的核心优势在于通过多层堆叠(stacking)集成多种模型,实现多层模型组合。实验结果表明,这种多层模型组合在充分利用分配的训练时间方面,显著优于单纯寻找“最优”单一模型的策略。第二项贡献是对多个公开及商业 AutoML 平台的全面评估,涵盖 TPOT、H2O、AutoWEKA、auto-sklearn、AutoGluon 以及 Google AutoML Tables。在来自 Kaggle 和 OpenML AutoML 基准测试的 50 个分类与回归任务上进行的测试表明,AutoGluon 在速度、鲁棒性和准确性方面均表现优异,显著优于其他平台。我们发现,AutoGluon 的性能甚至常常超越所有竞争对手在事后(in-hindsight)组合出的最佳模型表现。在两个广受欢迎的 Kaggle 竞赛中,AutoGluon 仅使用原始数据训练 4 小时,便击败了 99% 的参赛数据科学家。

AutoGluon-Tabular:面向结构化数据的鲁棒且精准的AutoML | 最新论文 | HyperAI超神经