17 天前

BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集
摘要

通过对消费者评论中表达的情感进行分析,可为产品品质提供丰富的洞察。尽管情感分析在多种主流语言中已得到广泛研究,但针对孟加拉语(Bangla)的研究仍相对较少,主要原因在于缺乏相关数据以及跨领域适应性差。为解决这一局限,本文提出 BanglaBook——一个大规模的孟加拉语图书评论数据集,包含158,065条样本,按情感倾向划分为正面、负面和中性三类。我们对数据集进行了详尽的统计分析,并采用多种机器学习模型构建基线性能,包括支持向量机(SVM)、长短期记忆网络(LSTM)以及孟加拉语预训练模型 Bangla-BERT。实验结果表明,预训练模型在性能上显著优于依赖人工特征工程的模型,凸显了在该领域进一步开发训练资源的必要性。此外,我们通过分析情感单字词(sentiment unigrams)开展了深入的错误分析,为资源匮乏语言如孟加拉语中的常见分类错误提供了潜在解释。本文所用代码与数据集均已公开,获取地址为:https://github.com/mohsinulkabir14/BanglaBook。