HyperAIHyperAI

Command Palette

Search for a command to run...

BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集

Mohsinul Kabir Obayed Bin Mahfuz Syed Rifat Raiyan Hasan Mahmud Md Kamrul Hasan

摘要

通过对消费者评论中表达的情感进行分析,可为产品品质提供丰富的洞察。尽管情感分析在多种主流语言中已得到广泛研究,但针对孟加拉语(Bangla)的研究仍相对较少,主要原因在于缺乏相关数据以及跨领域适应性差。为解决这一局限,本文提出 BanglaBook——一个大规模的孟加拉语图书评论数据集,包含158,065条样本,按情感倾向划分为正面、负面和中性三类。我们对数据集进行了详尽的统计分析,并采用多种机器学习模型构建基线性能,包括支持向量机(SVM)、长短期记忆网络(LSTM)以及孟加拉语预训练模型 Bangla-BERT。实验结果表明,预训练模型在性能上显著优于依赖人工特征工程的模型,凸显了在该领域进一步开发训练资源的必要性。此外,我们通过分析情感单字词(sentiment unigrams)开展了深入的错误分析,为资源匮乏语言如孟加拉语中的常见分类错误提供了潜在解释。本文所用代码与数据集均已公开,获取地址为:https://github.com/mohsinulkabir14/BanglaBook


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供