17일 전

BanglaBook: 책 리뷰에서 감정 분석을 위한 대규모 방글라어 데이터셋

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

초록

소비자 감정 분석은 리뷰를 통해 표현된 의견을 통해 제품의 품질에 대한 풍부한 통찰을 제공할 수 있다. 감정 분석 연구는 여러 주요 언어에서 널리 진행되어 왔으나, 바ング라어에 대해서는 관련 데이터 부족 및 다영역 적응성의 한계로 인해 상대적으로 덜 다뤄져 왔다. 이러한 한계를 극복하기 위해, 우리는 158,065개의 샘플을 포함하며 긍정, 부정, 중립의 세 가지 주요 카테고리로 분류된 대규모 바ング라어 도서 리뷰 데이터셋인 BanglaBook을 제안한다. 본 연구에서는 데이터셋에 대한 철저한 통계 분석을 수행하고, SVM, LSTM, Bangla-BERT 등 다양한 기계학습 모델을 활용하여 기준 성능을 설정하였다. 분석 결과, 수작업으로 설계된 특징에 의존하는 모델보다 사전 훈련된 모델이 훨씬 우수한 성능을 보임을 확인하였으며, 이는 해당 분야에서 추가적인 훈련 자원의 필요성을 강조한다. 또한, 감정 단어( sentiment unigram )를 분석함으로써 오류 분석을 심층적으로 수행하였으며, 바ング라어와 같이 자료가 부족한 언어에서 흔히 발생하는 분류 오류에 대한 통찰을 제공할 수 있다. 본 연구의 코드 및 데이터는 https://github.com/mohsinulkabir14/BanglaBook 에 공개되어 있다.