استكشاف التهديدات متعددة المستويات في بيانات تيليجرام باستخدام التسمية الذكية-البشرية: دراسة أولية
تتناول هذه الدراسة التحدي الحاسم المتمثل في قياس التهديدات بشكل فعّال في التعليقات على وسائل التواصل الاجتماعي التي تستهدف التصويت والمسؤولين العامين والمؤسسات في الولايات المتحدة. يظل فهمنا لهذه التهديدات الإلكترونية وعلاقتها بالمخاطر الواقعية محدودًا، مما يجعل من الصعب تقييم مدى خطورتها. لتجاوز هذه القيود، نقترح مقياسًا شاملاً لمستويات التهديد تتراوح قيمته من 0 إلى 5، ونجمع مجموعة بيانات ضخمة تضم 1.3 مليون رد على تيليغرام لتطوير واختبار هذه المستويات بشكل صارم. علاوةً على ذلك، نستكشف استخدام التصنيف البشري المدعوم بـ OpenAI لتصنيف هذه المجموعة الضخمة بكفاءة. يعتمد نهجنا المبتكر المكون من خطوتين على التعلم المن転 (transfer learning): حيث نستخدم في المرحلة الأولى نموذجًا مُدرَّبًا مسبقًا ومتوفرًا مسبقًا لوضع التصنيفات، ثم نخضع هذه التصنيفات لمراجعة خبراء. وفي المرحلة الثانية، نستخدم العينات التي قُدمت تصنيفها بواسطة الذكاء الاصطناعي لتطوير نماذج مستقلة، ويقوم المُصنِّفون الخبراء بمراجعة توقعات هذه النماذج. ويُظهر تحليلنا نتائج مثيرة للاهتمام، حيث أن نموذج GPT-2، على الرغم من امتلاكه لعينة تدريب مُصنَّفة أصغر، أظهر أداءً يُقارن بأداء التصنيفات التي قدمها OpenAI، مما يُبرز إمكاناته في كشف التهديدات بتكاليف منخفضة عند توفر عينات مُصنَّفة أكثر. وبهدف طويل الأجل هو إقامة نظام مراقبة مستمرة لمستويات التهديد، نحدد نقاط القوة والقيود في منهجيتنا الحالية، ونُقدّم خطة طريق لتحسين كفاءة كشف التهديدات في المستقبل.