BERT-Sort: AutoML을 위한 순서형 특징에 대한 제로샷 MLM 의미 인코더

표본 데이터를 위한 머신러닝 파이프라인을 구축하는 과정에서 데이터 전처리는 핵심 단계 중 하나이다. 자동화된 머신러닝(AutoML) 시스템에서 흔히 구현되는 데이터 전처리 작업 중 하나는 범주형 특징을 수치형 특징으로 인코딩하는 것이다. 일반적으로 이는 Scikit-Learn 및 H2O와 같은 라이브러리에서 제공하는 OrdinalEncoder, LabelEncoder 등의 함수를 사용하여 범주형 값에 대해 간단한 알파벳 순서 정렬을 기반으로 수행된다. 그러나 범주형 값 간에는 종종 의미론적 순서 관계가 존재하며, 예를 들어 품질 수준(예: [‘매우 좋음’ > ‘좋음’ > ‘보통’ > ‘나쁨’])이나 월(예: [‘1월’ < ‘2월’ < ‘3월’])과 같은 관계가 포함될 수 있다. 기존의 AutoML 접근법들은 이러한 의미론적 순서 관계를 활용하지 못하고 있다. 본 논문에서는, 제로샷(Masked Language Model, MLM) 기반의 BERT-Sort라는 새로운 접근법을 제안한다. 이는 순서형 범주형 값에 대해 의미론적으로 인코딩하는 기법으로, 표본 데이터를 위한 AutoML에 적용 가능하다. 우리는 처음으로 10개의 공개 데이터셋에서 추출한 42개의 특징을 기반으로 순서형 범주형 값 정렬을 위한 새로운 벤치마크를 구축하였으며, 기존의 방법에 비해 BERT-Sort는 의미론적 인코딩 성능에서 27% 향상을 보였다. 또한 RoBERTa, XLM, DistilBERT와 같은 다양한 공개 MLM 모델에 대해 BERT-Sort의 종합적인 평가를 수행하였으며, AutoGluon, FLAML, H2O, MLJAR 등의 다양한 AutoML 플랫폼에서 원시 데이터셋과 BERT-Sort를 통해 인코딩된 데이터셋 간의 성능을 비교함으로써 제안된 방법의 종단 간(end-to-end) 성능을 평가하였다.