
摘要
在可读性评估任务中,传统方法主要依赖于基于数百个语言学特征的机器学习分类器。尽管深度学习模型已几乎成为所有自然语言处理(NLP)任务的主流方法,但在可读性评估领域的应用仍相对有限。本文提出一种基于BERT的模型——BERT-FP-LBL(BERT with Feature Projection and Length-Balanced Loss),用于可读性评估。具体而言,我们提出一种新的、基于难度知识引导的半监督方法,用于提取主题特征,以补充传统语言学特征。在语言学特征的基础上,我们引入投影滤波(projection filtering)技术,提取正交特征,以增强BERT的表示能力。此外,为应对数据长度分布极不均衡的问题,我们设计了一种新的长度平衡损失函数(length-balanced loss)。实验结果表明,该模型在两个英文基准数据集和一个中文教材数据集上均取得了当前最优性能,并在其中一个英文数据集上达到了接近完美的99%准确率。同时,在与人类专家的一致性测试中,本模型的表现也达到了与专家相当的水平。