6ヶ月前

データセット

ベンチマーク

AIインフラストラクチャ

Mohsinul Kabir Obayed Bin Mahfuz Syed Rifat Raiyan Hasan Mahmud Md Kamrul Hasan

概要

消費者の意見をレビューを通じて分析することで、製品の品質に関する豊富な知見を得ることが可能である。感情分析の研究は、多くの主要言語において広く進められてきたが、バングラ語については、関連データの不足やドメイン間適応性の低さといった理由から、比較的取り組みが限定的であった。この課題に対処するため、本研究では、158,065件のバングラ語書籍レビューから構成される大規模データセット「BanglaBook」を提示する。このデータセットは、肯定的、否定的、中立の3つの主要カテゴリに分類されている。本研究では、データセットについて詳細な統計分析を行い、SVM、LSTM、およびBangla-BERTを含む複数の機械学習モデルを用いてベースライン性能を評価した。その結果、手動で特徴量を設計するモデルに比べ、事前学習済みモデルが顕著な性能優位性を示した。これは、本分野におけるさらなる学習リソースの開発が不可欠であることを示唆している。さらに、未十分なリソースを持つ言語（例：バングラ語）における分類誤りの傾向を明らかにするために、感情的な単語（sentiment unigrams）の分析を通じて詳細な誤差解析も実施した。本研究のコードおよびデータは、https://github.com/mohsinulkabir14/BanglaBook にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

ベンチマーク

AIインフラストラクチャ

Mohsinul Kabir Obayed Bin Mahfuz Syed Rifat Raiyan Hasan Mahmud Md Kamrul Hasan

概要

消費者の意見をレビューを通じて分析することで、製品の品質に関する豊富な知見を得ることが可能である。感情分析の研究は、多くの主要言語において広く進められてきたが、バングラ語については、関連データの不足やドメイン間適応性の低さといった理由から、比較的取り組みが限定的であった。この課題に対処するため、本研究では、158,065件のバングラ語書籍レビューから構成される大規模データセット「BanglaBook」を提示する。このデータセットは、肯定的、否定的、中立の3つの主要カテゴリに分類されている。本研究では、データセットについて詳細な統計分析を行い、SVM、LSTM、およびBangla-BERTを含む複数の機械学習モデルを用いてベースライン性能を評価した。その結果、手動で特徴量を設計するモデルに比べ、事前学習済みモデルが顕著な性能優位性を示した。これは、本分野におけるさらなる学習リソースの開発が不可欠であることを示唆している。さらに、未十分なリソースを持つ言語（例：バングラ語）における分類誤りの傾向を明らかにするために、感情的な単語（sentiment unigrams）の分析を通じて詳細な誤差解析も実施した。本研究のコードおよびデータは、https://github.com/mohsinulkabir14/BanglaBook にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています