HyperAIHyperAI
il y a 17 jours

BanglaBook : Un grand ensemble de données bangla pour l'analyse d'opinion à partir d'avis de livres

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
BanglaBook : Un grand ensemble de données bangla pour l'analyse d'opinion à partir d'avis de livres
Résumé

L’analyse de l’opinion des consommateurs, telle qu’exprimée à travers les avis, peut fournir une quantité considérable d’informations sur la qualité d’un produit. Bien que l’étude de l’analyse d’opinion ait été largement explorée dans de nombreuses langues courantes, relativement moins d’attention a été accordée à la langue bangla, principalement en raison du manque de données pertinentes et de la faible adaptabilité entre domaines. Pour pallier cette limitation, nous présentons BanglaBook, un jeu de données à grande échelle d’avis de livres en bangla comprenant 158 065 échantillons classés en trois catégories principales : positifs, négatifs et neutres. Nous fournissons une analyse statistique détaillée de ce jeu de données et mettons en œuvre une variété de modèles d’apprentissage automatique afin d’établir des seuils de référence, notamment SVM, LSTM et Bangla-BERT. Nos résultats démontrent un avantage significatif des modèles pré-entraînés par rapport aux modèles reposant sur des caractéristiques manuellement conçues, soulignant ainsi la nécessité de ressources supplémentaires d’entraînement dans ce domaine. En outre, nous menons une analyse approfondie des erreurs en examinant les unigrammes d’opinion, ce qui peut offrir des pistes sur les erreurs de classification fréquentes dans les langues sous-ressourcées comme le bangla. Nos codes et données sont disponibles publiquement à l’adresse suivante : https://github.com/mohsinulkabir14/BanglaBook.