17日前

BanglaBook:書評からの感情分析のための大規模バングラ語データセット

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
BanglaBook:書評からの感情分析のための大規模バングラ語データセット
要約

消費者の意見をレビューを通じて分析することで、製品の品質に関する豊富な知見を得ることが可能である。感情分析の研究は、多くの主要言語において広く進められてきたが、バングラ語については、関連データの不足やドメイン間適応性の低さといった理由から、比較的取り組みが限定的であった。この課題に対処するため、本研究では、158,065件のバングラ語書籍レビューから構成される大規模データセット「BanglaBook」を提示する。このデータセットは、肯定的、否定的、中立の3つの主要カテゴリに分類されている。本研究では、データセットについて詳細な統計分析を行い、SVM、LSTM、およびBangla-BERTを含む複数の機械学習モデルを用いてベースライン性能を評価した。その結果、手動で特徴量を設計するモデルに比べ、事前学習済みモデルが顕著な性能優位性を示した。これは、本分野におけるさらなる学習リソースの開発が不可欠であることを示唆している。さらに、未十分なリソースを持つ言語(例:バングラ語)における分類誤りの傾向を明らかにするために、感情的な単語(sentiment unigrams)の分析を通じて詳細な誤差解析も実施した。本研究のコードおよびデータは、https://github.com/mohsinulkabir14/BanglaBook にて公開されている。