2 个月前
利用循环神经网络学习阿拉伯语和英语诗歌的格律:语言理解和合成的一步进展
Waleed A. Yousef; Omar M. Ibrahime; Taha M. Madbouly; Moustafa A. Mahmoud

摘要
识别一篇作品是诗歌还是散文对大多数人来说通常并不困难;然而,只有专家才能确定一首诗属于哪种韵律。在本文中,我们构建了循环神经网络(RNN)模型,这些模型可以从纯文本中对诗歌进行分类,根据其所属的韵律。输入文本在字符级别进行编码,并直接输入模型而无需手工提取特征。这是机器对语言理解和合成的一般性进展,特别是对于阿拉伯语。网络能够分别以96.38%和82.31%的总体准确率正确分类阿拉伯语和英语的诗歌韵律。用于本研究的诗歌数据集非常庞大,超过150万行诗句,是从不同的非技术来源爬取的,几乎涵盖了阿拉伯语和英语文学网站上的各种异构和非结构化格式。这些数据集现在已以干净、结构化且有文档的形式公开发布,供未来研究使用。据作者所知,这项研究是首次采用机器学习方法解决诗歌韵律分类问题,特别是在基于无特征RNN的方法中。此外,该数据集也是首个为未来计算研究准备并公开发布的数据集。