HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

كشف البريد العشوائي التقليدي والمتخصص في السياق في البيئات ذات الموارد المحدودة

{Lisa Singh Kornraphop Kawintiranon}

الملخص

تتميز بيانات وسائل التواصل الاجتماعي بمزيج من المحتوى عالي الجودة ومنخفض الجودة. ومن أشكال المحتوى منخفض الجودة التي تُدرس بشكل شائع هو البريد العشوائي (Spam). وغالبًا ما تفترض الدراسات الحالية أن البريد العشوائي لا يعتمد على السياق. ونُظهر من خلال مجموعات بيانات مختلفة من تويتر أن البريد العشوائي المُعتمد على السياق موجود وقابل للاكتشاف. ثم نُقارن بين عدة نماذج تعلم آلي تقليدية ونموذج شبكي عصبي يستخدم نموذج لغة مُدرّب مسبقًا (BERT) لالتقاط السمات السياقية للكشف عن البريد العشوائي، سواء التقليدي أو المُعتمد على السياق، باستخدام فقط السمات المستمدة من المحتوى. ونجد أن النموذج الشبكي العصبي يتفوق على النماذج التقليدية، حيث يحقق مؤشر F1 قدره 0.91. وبما أن مجموعات بيانات التدريب الخاصة بالبريد العشوائي معروفة بانحيازها الشديد (عدم التوازن)، فقد قمنا أيضًا بدراسة تأثير هذا الانحياز، ونُظهر أن نماذج "حقيبة الكلمات" (Bag-of-Words) البسيطة تكون الأفضل في حالات الانحياز الشديد، لكن النموذج الشبكي العصبي الذي يُعدّل دقيقًا باستخدام نماذج لغوية من مجالات أخرى يُحسّن بشكل ملحوظ مؤشر F1، وإن لم يصل إلى مستويات النماذج الشبكية العصبية المُخصصة للمجال. وهذا يشير إلى أن الاستراتيجية المستخدمة قد تختلف حسب مستوى الانحياز في مجموعة البيانات، وكمية البيانات المتاحة في البيئات ذات الموارد المحدودة، وانتشار البريد العشوائي المُعتمد على السياق مقارنةً بالبريد العشوائي التقليدي. وأخيرًا، نُعلن عن توفير مجموعات البيانات لناحية المجتمع البحثي للاستخدام.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
context-specific-spam-detection-on-contextBERT
Avg F1: 0.8408
spam-detection-on-context-specific-spamBERT
Avg F1: 0.8553
traditional-spam-detection-on-contextBERT
Avg F1: 0.9079

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp