
要約
欠損データの補完は、有用な情報が欠損データに隠されている場合、予測モデルの性能を向上させるのに役立ちます。本論文では、監督分類タスクにおける欠損カテゴリカルデータの補完手法を比較しています。2つの機械学習ベンチマークデータセット(欠損カテゴリカルデータを含む)を使用し、非補完(すなわち、ワンホットエンコーディング)または異なるレベルの追加的な欠損データ摂動を施した補完データで訓練された分類器を比較しました。結果として、欠損データ摂動の存在下で補完手法が予測精度を向上させることができることが示されました。これは、分類器を正則化することで実際には予測精度が向上する可能性があることを示唆しています。また、Adult データセットにおいて k-近傍法 (k-NN) 補完と欠損データ摂動を使用することで最先端の成果を達成しました。