
초록
결측 데이터 보정은 결측 데이터가 유용한 정보를 숨기고 있는 상황에서 예측 모델의 성능을 향상시키는 데 도움이 될 수 있습니다. 본 논문에서는 지도 분류 작업을 위한 결측 범주형 데이터 보정 방법들을 비교합니다. 우리는 결측 범주형 데이터를 포함하는 두 개의 기계 학습 벤치마크 데이터셋을 사용하여, 결측 데이터를 보정하지 않은 (즉, 원-핫 인코딩된) 또는 다양한 수준의 추가적인 결측 데이터 섭동을 가진 보정된 데이터로 훈련된 분류기를 비교 실험하였습니다. 실험 결과, 결측 데이터 섭동이 존재할 때 보정 방법들이 예측 정확도를 높일 수 있으며, 이는 분류기를 규제함으로써 실제로 예측 정확도를 향상시킬 수 있음을 보였습니다. 우리는 결측 데이터 섭동과 k-최근접 이웃 (k-NN) 보정 방법을 사용하여 Adult 데이터셋에서 최신 기술 수준의 성능을 달성하였습니다.