
要約
テーブルデータ向け機械学習パイプラインの構築において、データ前処理は重要なステップの一つである。自動機械学習(AutoML)システムに実装される一般的なデータ前処理操作の一つとして、カテゴリカル特徴量を数値特徴量に変換する処理がある。通常、これはScikit-LearnやH2OにおけるOrdinalEncoderやLabelEncoderなどの関数を用いて、カテゴリ値を単純なアルファベット順に並べ替えることで実現される。しかし、カテゴリ値の間に意味的な順序関係(例:品質レベル(「非常に良い」>「良い」>「普通」>「悪い」)、または月(「Jan」<「Feb」<「Mar」))が存在する場合が多く、従来のAutoML手法はこのような意味的順序関係を活用していない。本論文では、ゼロショットのマスク言語モデル(MLM)を用いて順序付きカテゴリカル値を意味的に符号化する新しいアプローチであるBERT-Sortを提案し、テーブルデータ向けAutoMLに適用する。本研究では、10個の公開データセットから抽出した42個の特徴量を対象に、初めて順序付きカテゴリカル値の並べ替えに関する新しいベンチマークを構築した。その結果、BERT-Sortは既存手法と比較して順序値の意味的符号化において27%の改善を達成した。また、RoBERTa、XLM、DistilBERTなど異なる公開MLMを用いた包括的な評価を行い、AutoGluon、FLAML、H2O、MLJARといった複数のAutoMLプラットフォームにおいて、BERT-Sortによる符号化前後のデータセットの性能を比較することで、エンドツーエンドのシナリオにおける本手法の有効性を検証した。