
摘要
数据预处理是构建表格数据机器学习流水线的关键步骤之一。在自动化机器学习(AutoML)系统中,常见的数据预处理操作之一是将分类特征编码为数值特征。通常,这一过程通过基于分类值的简单字母顺序排序来实现,例如使用 Scikit-Learn 和 H2O 中的 OrdinalEncoder 或 LabelEncoder。然而,分类值之间往往存在语义上的序数关系,例如:质量等级(如“非常优秀” > “优秀” > “正常” > “较差”),或月份顺序(如“Jan” < “Feb” < “Mar”)。现有的 AutoML 方法并未充分利用此类语义关系。本文提出一种新方法——BERT-Sort,通过零样本掩码语言模型(Masked Language Model, MLM)实现对序数型分类值的语义编码,并将其应用于表格数据的 AutoML 场景。我们首次构建了一个包含 10 个公开数据集共 42 个特征的新基准,用于评估分类序数值的排序性能。实验结果表明,与现有方法相比,BERT-Sort 在语义编码方面实现了 27% 的显著提升。我们对多种公开的 MLM 模型(如 RoBERTa、XLM 和 DistilBERT)进行了全面评估,并在多个 AutoML 平台(包括 AutoGluon、FLAML、H2O 和 MLJAR)上,对比了原始数据集与经 BERT-Sort 编码后的数据集在端到端场景下的性能表现,以全面验证所提方法的有效性。