
摘要
我们报告了可读性评估领域的两项关键改进:其一,引入了三项基于高级语义的新特征;其二,提供了及时的实证证据,表明传统机器学习模型(如随机森林,采用人工设计特征)可与Transformer模型(如RoBERTa)相结合,从而显著提升模型性能。首先,我们系统探索了适用于该任务的预训练Transformer模型与传统机器学习模型的组合方式;其次,我们利用自主研发的特征提取软件,手工提取了255个语言学特征;最后,我们将这些特征与深度学习模型融合,构建了多种混合模型,在主流可读性评估数据集上取得了当前最优(SOTA)的准确率。研究表明,人工设计特征在小规模数据集上对模型性能具有显著增益。尤为突出的是,我们的RoBERTa-RF-T1混合模型实现了接近完美的分类准确率99%,相较于此前的SOTA模型提升了20.3%。