HyperAIHyperAI
vor 17 Tagen

BanglaBook: Ein großflächiges Bangla-Datensatz für die Sentimentanalyse aus Buchrezensionen

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
BanglaBook: Ein großflächiges Bangla-Datensatz für die Sentimentanalyse aus Buchrezensionen
Abstract

Die Analyse der Verbrauchersentiment, wie sie durch Rezensionen zum Ausdruck gebracht wird, kann wertvolle Einblicke in die Qualität eines Produkts liefern. Während die Sentiment-Analyse in vielen gängigen Sprachen umfassend erforscht wurde, erfuhr die Bangla-Sprache bisher vergleichsweise wenig Aufmerksamkeit, hauptsächlich aufgrund des Mangels an relevanten Datensätzen und der geringen Übertragbarkeit zwischen Domänen. Um diese Lücke zu schließen, präsentieren wir BanglaBook, einen großskaligen Datensatz aus Bangla-Buchrezensionen mit insgesamt 158.065 Beispielen, die in drei Hauptkategorien eingeteilt sind: positiv, negativ und neutral. Wir führen eine detaillierte statistische Analyse des Datensatzes durch und setzen eine Vielzahl von maschinellen Lernmodellen zur Erstellung von Baseline-Ergebnissen ein, darunter SVM, LSTM und Bangla-BERT. Unsere Ergebnisse zeigen einen erheblichen Leistungsadvantage vortrainierter Modelle gegenüber Modellen, die auf manuell erstellten Merkmalen basieren, was die Notwendigkeit zusätzlicher Trainingsressourcen in diesem Bereich unterstreicht. Zudem führen wir eine eingehende Fehleranalyse durch, indem wir Sentiment-Unigramme untersuchen, die möglicherweise Einblicke in typische Klassifizierungsfehler in unterversorgten Sprachen wie Bangla liefern. Unsere Quellcodes und der Datensatz sind öffentlich unter https://github.com/mohsinulkabir14/BanglaBook verfügbar.