HyperAIHyperAI
منذ 17 أيام

BanglaBook: مجموعة بيانات كبيرة الحجم للبنغالية لتحليل المشاعر من مراجعات الكتب

Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
BanglaBook: مجموعة بيانات كبيرة الحجم للبنغالية لتحليل المشاعر من مراجعات الكتب
الملخص

يمكن أن يوفر تحليل مشاعر المستهلكين، كما يُعبّر عنها من خلال المراجعات، كمية كبيرة من الرؤى حول جودة المنتج. وعلى الرغم من أن دراسة تحليل المشاعر قد تم استكشافها على نطاق واسع في العديد من اللغات الشائعة، إلا أن الاهتمام بها كان محدودًا نسبيًا في اللغة البنغالية، وذلك بشكل رئيسي بسبب نقص البيانات ذات الصلة وقلة قابلية التكيف عبر المجالات. وللتغلب على هذه القيود، نقدم "BanglaBook"، وهي مجموعة بيانات كبيرة الحجم تتضمن مراجعات كتب باللغة البنغالية، مكوّنة من 158,065 عينة تم تصنيفها إلى ثلاث فئات رئيسية: إيجابية، سلبية، ومحايدة. نقدّم تحليلًا إحصائيًا مفصّلًا لهذه المجموعة، ونستخدم مجموعة من نماذج التعلم الآلي لوضع معايير مبدئية، تشمل دعم المتجهات الآلية (SVM)، والشبكات العصبية التكرارية (LSTM)، ونموذج Bangla-BERT. تُظهر نتائجنا ميزة أداء واضحة للنماذج المُدرّبة مسبقًا مقارنة بالنماذج التي تعتمد على ميزات مُصممة يدويًا، مما يُبرز الحاجة إلى موارد تدريب إضافية في هذا المجال. علاوةً على ذلك، نُجري تحليلًا دقيقًا للأخطاء من خلال دراسة الأحادية (unigrams) المتعلقة بالمشاعر، وهو ما قد يقدّم رؤى حول الأخطاء الشائعة في التصنيف ضمن اللغات ذات الموارد المحدودة مثل البنغالية. تُتاح كوداتنا وبياناتنا للعامة عبر الرابط: https://github.com/mohsinulkabir14/BanglaBook.