
摘要
在低资源语言的短文本中识别情感是一项重大挑战,需要采用专门的框架与计算智能技术。本文系统探讨了用于短波斯语文本情感检测的浅层学习与深度学习方法。浅层学习方法通过特征提取与降维技术提升分类准确性;而深度学习方法则借助迁移学习与词嵌入技术,特别是BERT模型,实现了更高的分类精度。为此,本文提出一个名为“ShortPersianEmo”的波斯语数据集,用于评估所提出的方法,该数据集包含5472条多样化的短波斯语文本,标注为五种主要情感类别。实验结果表明,相较于其他方法,基于迁移学习与BERT的文本嵌入在准确分类短波斯语文本方面表现更优。本研究使用的数据集ShortPersianEmo将通过https://github.com/vkiani/ShortPersianEmo 公开获取。