كشف البريد العشوائي التقليدي والمتخصص في السياق في البيئات ذات الموارد المحدودة
تتميز بيانات وسائل التواصل الاجتماعي بمزيج من المحتوى عالي الجودة ومنخفض الجودة. ومن أشكال المحتوى منخفض الجودة التي تُدرس بشكل شائع هو البريد العشوائي (Spam). وغالبًا ما تفترض الدراسات الحالية أن البريد العشوائي لا يعتمد على السياق. ونُظهر من خلال مجموعات بيانات مختلفة من تويتر أن البريد العشوائي المُعتمد على السياق موجود وقابل للاكتشاف. ثم نُقارن بين عدة نماذج تعلم آلي تقليدية ونموذج شبكي عصبي يستخدم نموذج لغة مُدرّب مسبقًا (BERT) لالتقاط السمات السياقية للكشف عن البريد العشوائي، سواء التقليدي أو المُعتمد على السياق، باستخدام فقط السمات المستمدة من المحتوى. ونجد أن النموذج الشبكي العصبي يتفوق على النماذج التقليدية، حيث يحقق مؤشر F1 قدره 0.91. وبما أن مجموعات بيانات التدريب الخاصة بالبريد العشوائي معروفة بانحيازها الشديد (عدم التوازن)، فقد قمنا أيضًا بدراسة تأثير هذا الانحياز، ونُظهر أن نماذج "حقيبة الكلمات" (Bag-of-Words) البسيطة تكون الأفضل في حالات الانحياز الشديد، لكن النموذج الشبكي العصبي الذي يُعدّل دقيقًا باستخدام نماذج لغوية من مجالات أخرى يُحسّن بشكل ملحوظ مؤشر F1، وإن لم يصل إلى مستويات النماذج الشبكية العصبية المُخصصة للمجال. وهذا يشير إلى أن الاستراتيجية المستخدمة قد تختلف حسب مستوى الانحياز في مجموعة البيانات، وكمية البيانات المتاحة في البيئات ذات الموارد المحدودة، وانتشار البريد العشوائي المُعتمد على السياق مقارنةً بالبريد العشوائي التقليدي. وأخيرًا، نُعلن عن توفير مجموعات البيانات لناحية المجتمع البحثي للاستخدام.