HyperAIHyperAI
منذ 18 أيام

هيدرا: إطار تعليم عميق متعدد الوسائط للتصنيف الضار

{Jordi Planes, Carles Mateu, Daniel Gibert}
الملخص

بينما تعتمد الطرق التقليدية لتعلم الآلة في كشف البرمجيات الخبيثة بشكل كبير على الميزات المصممة يدويًا، والتي تستند إلى معرفة الخبراء في المجال، تأخذ النماذج القائمة على التعلم من الطرفين (end-to-end) الملف التنفيذي الخام كمدخل، وتحاول استخلاص مجموعة من الميزات الوصفية منه. وعلى الرغم من أن النماذج الثانية قد تؤدي أداءً ضعيفًا في المشكلات التي تفتقر إلى كميات كبيرة من البيانات أو في الحالات التي يكون فيها التوزيع غير متوازن للبيانات، فإننا في هذه الورقة نقدّم HYDRA، وهي إطار عمل جديد لمعالجة مهمة كشف وتصنيف البرمجيات الخبيثة من خلال دمج أنواع مختلفة من الميزات لاستكشاف العلاقات بين الوسائط المختلفة. يتعلم نهجنا من مصادر متعددة بهدف استغلال الفوائد القصوى لأنواع متعددة من الميزات لتعكس الخصائص الخاصة بالملفات التنفيذية للبرمجيات الخبيثة. ونُقدّم نظامًا أساسيًا (baseline) يتكون من مكونات مصممة يدويًا ومكونات قائمة على التعلم من الطرفين، بهدف دمج مزايا هندسة الميزات والتعلم العميق، بحيث تُمثّل خصائص البرمجيات الخبيثة بشكل فعّال. وتشير التحليلات المعمّقة للأساليب الرائدة في المجال على معيار Microsoft Malware Classification Challenge إلى أن الحل المقترح يحقق نتائج مماثلة لأساليب التحفيز التدرجي (gradient boosting) المنشورة سابقًا، ونتائج أعلى مقارنةً بالأساليب القائمة على التعلم العميق.