HyperAIHyperAI
منذ 18 أيام

شبكة عصبية تلافيفية هيراركية لتصنيف البرمجيات الخبيثة

{Jordi Planes, Carles Mateu, Daniel Gibert}
الملخص

كشف البرمجيات الخبيثة وتصنيفها يُعد مشكلة صعبة ومنطقة نشطة في البحث العلمي. ومن أبرز التحديات التي تواجهها هذه العملية كيفية معالجة وتنقية الملفات التنفيذية الخبيثة بشكل يُمكن استخدامها في خوارزميات التعلم الآلي. تُعالج الطرق الحديثة في الأدبيات الملف التنفيذي كسلسلة من البايتات أو كسلسلة من تعليمات اللغة التجميعية (Assembly Language Instructions). ومع ذلك، فإن هذه الطرق لا تأخذ بعين الاعتبار البنية الهرمية للبرامج. فالمُنفّذ يُظهر مستويات متعددة من الارتباط المكاني: إذ تكون التعليمات البرمجية المجاورة مترابطة مكانيًا، لكن هذا ليس بالضرورة صفة شائعة دائمًا. فاستدعاءات الدوال والتعليمات المنقولة (مثل أوامر التحويل Jump) تُحوّل التحكم في البرنامج إلى نقطة مختلفة في تدفق التعليمات. علاوةً على ذلك، تبقى هذه الانقطاعات محفوظة عند اعتبار الملف الثنائي كسلسلة من القيم البايتية. وبالإضافة إلى ذلك، قد تُرتّب الدوال بشكل عشوائي إذا تم إعادة تنظيم العناوين بشكل صحيح. ولحل هذه المشكلات، نقترح شبكة تلافيفية هرمية (Hierarchical Convolutional Network - HCN) لتصنيف البرمجيات الخبيثة. وتمتاز الشبكة بوجود مستويين من كتل التلافيف، يتم تطبيقها على مستوى الماكرونيم (Mnemonic Level) وعلى مستوى الدالة (Function Level)، مما يمكّننا من استخراج ميزات شبيهة بـ n-gram من كلا المستويين عند بناء تمثيل البرمجية الخبيثة. وقد قمنا بتحقق من أداء طريقة HCN على مجموعة البيانات التي أُطلقت ضمن مسابقة تصنيف البرمجيات الخبيثة من مايكروسوفت، حيث تفوقت على معظم الطرق العميقة في الأدبيات.