9일 전
AutoGluon-Tabular: 구조화된 데이터를 위한 강건하고 정확한 AutoML
Nick Erickson, Jonas Mueller, Alexander Shirkov, Hang Zhang, Pedro Larroy, Mu Li, Alexander Smola

초록
우리는 CSV 파일과 같은 처리되지 않은 표형 데이터셋에서 고정밀도 기계학습 모델을 훈련하기 위해 단일 Python 명령어만으로 사용할 수 있는 오픈소스 AutoML 프레임워크인 AutoGluon-Tabular을 소개한다. 기존 AutoML 프레임워크가 주로 모델 또는 하이퍼파라미터 선택에 초점을 맞추는 반면, AutoGluon-Tabular은 여러 모델을 앙상블하고 다중 레이어로 스택하는 방식으로 성공을 거두었다. 실험 결과, 다양한 모델의 다중 레이어 조합은 최적의 모델을 찾는 것보다 할당된 훈련 시간을 더 효율적으로 활용함을 보여주었다. 두 번째 기여는 TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon, Google AutoML Tables 등 공개 및 상용 AutoML 플랫폼에 대한 광범위한 평가를 수행한 점이다. Kaggle과 OpenML AutoML 벤치마크에서 추출한 총 50개의 분류 및 회귀 작업에 대한 테스트 결과, AutoGluon이 더 빠르고, 더 강건하며, 훨씬 더 정확함을 확인하였다. 특히 AutoGluon은 경쟁 플랫폼들 중에서 후보로 제시된 모든 모델의 최적 조합보다도 뛰어난 성능을 보이기도 했다. 두 개의 인기 있는 Kaggle 경진대회에서 AutoGluon은 원시 데이터에 대해 단 4시간의 훈련만으로 참여한 데이터 과학자들 중 99%를 상회하는 성능을 기록하였다.