16 天前

用于可读性评估的神经成对排序模型

Justin Lee, Sowmya Vajjala
用于可读性评估的神经成对排序模型
摘要

自动可读性评估(Automatic Readability Assessment, ARA)是指为文本分配阅读难度等级的任务,在自然语言处理(NLP)研究中传统上被视为一个分类问题。本文首次提出一种基于神经网络的成对排序(pairwise ranking)方法来解决ARA任务,并将其与现有的分类、回归以及非神经网络排序方法进行对比。通过在三个英文数据集、一个法文数据集和一个西班牙文数据集上开展实验,我们验证了所提模型的性能表现。实验结果表明,该方法在单语单语料库及跨语料库测试场景下均表现优异,并且在仅使用英文数据进行训练的情况下,实现了对法语和西班牙语文本超过80%的零样本跨语言排序准确率。此外,本文还发布了一个全新的英法双语可读性平行语料库。据我们所知,本文首次提出了用于ARA任务的神经网络成对排序模型,并首次展示了基于神经网络模型在跨语言、零样本场景下评估可读性的实验结果。

用于可读性评估的神经成对排序模型 | 最新论文 | HyperAI超神经