摘要
现有大多数研究集中于英语、西班牙语、汉语、日语等主流语言,然而尽管乌尔都语拥有超过六千万母语使用者,相关研究却相对匮乏。本文针对这一资源匮乏的语言,构建了一种深度学习模型,用于分析其文本中的情感表达。我们构建了一个开源语料库,包含来自566个在线讨论帖的10,008条评论,内容涵盖体育、食品、软件、政治和娱乐等主题。本研究旨在实现两个目标:(a)为乌尔都语情感分析研究提供一个人工标注的语料库;(b)利用该语料库对当前主流模型的性能进行评估。为评估模型性能,我们采用了二分类与三分类任务,并对比了多种模型,包括长短期记忆网络(LSTM)、循环卷积神经网络(RCNN)、基于规则的方法、N-gram模型、支持向量机(SVM)以及卷积神经网络(CNN)等。实验结果表明,RCNN模型在二分类任务中达到84.98%的准确率,在三分类任务中达到68.56%的准确率,优于其他标准模型。为便于同领域研究者开展进一步工作,本文已将所构建的语料库及实验代码全部开源。