تصنيف الاتجاه الفكري للنصوص المقدمة من المستخدمين في وسائل التواصل الاجتماعي
بهدف فهم كيفية استخدام اللغة وتطورها داخل المجتمعات الإلكترونية على المدى الطويل، تُستعرض في هذه الدراسة تطبيق تقنيات معالجة اللغة الطبيعية لتصنيف المقالات النصية حسب اتجاهها الفكري (أي المحافظ أو الليبرالي). نبدأ أولاً بجمع مجموعة نصية متوازنة من المقالات التي تم نشرها على مجتمعين إلكترونيين هما r/Liberal وr/Conservative على موقع التواصل الاجتماعي Reddit. وباستخدام هذه المجموعة، نطوّر ونطبّق ثلاثة نماذج تصنيف. النموذج الأساسي هو نموذج بايز الذي يأخذ بعين الاعتبار مجال الويب الخاص بكل مقال نصي، مما يجعل عملية التصنيف مستقلة عن المحتوى. ثم نطور نموذجًا لآلة الدعم المتجهي (SVM) باستخدام ميزات التردد المُحدد-التردد العكسي للوثيقة (TF-IDF)، حيث يُبرز هذا النهج الفروق في اللغة من خلال فضاء ميزات يعتمد على العد، مما يُمكّن من التمييز بين المقالات النصية. وأخيرًا، نقيّم نموذج التحويل القائم على السياق (RoBERTa) ونناقش أداءه الضعيف مقارنة بالنموذج الأساسي ونموذج SVM.