حول دور معالجة النص المسبق في هياكل الشبكات العصبية: دراسة تقييمية حول تصنيف النصوص وتحليل المشاعر

معالجة النص غالبًا ما تكون الخطوة الأولى في خط أنابيب نظام معالجة اللغة الطبيعية (NLP)، وقد يكون لها تأثير محتمل على أدائه النهائي. رغم أهميتها، لم تتلقَ معالجة النص الكثير من الاهتمام في الأدبيات المتعلقة بالتعلم العميق. في هذا البحث، ندرس تأثير قرارات بسيطة في معالجة النص (خاصة التجزئة إلى عناصر لغوية، وإعادة الشكل الأساسي للكلمات، وتحويل الحروف إلى صغرى، ودمج الكلمات المتعددة) على أداء تصنيف النصوص العصبي القياسي. نقوم بتقييم شامل باستخدام مقاييس معيارية من تصنيف النصوص وتحليل المشاعر. بينما تظهر تجاربنا أن التجزئة البسيطة للنص الإدخالي تكون كافية عمومًا، فإنها أيضًا تسلط الضوء على درجات متباينة كبيرة بين تقنيات المعالجة المسبقة. وهذا يكشف عن أهمية الانتباه لهذه الخطوة التي غالبًا ما يتم إهمالها في خط الأنابيب، خاصة عند مقارنة نماذج مختلفة. وأخيرًا، يقدم تقييمنا رؤى حول أفضل ممارسات المعالجة المسبقة لتدريب تمثيلات الكلمات (word embeddings).