HYDRA : un cadre d’apprentissage profond multimodal pour la classification de logiciels malveillants
Alors que les méthodes traditionnelles d’apprentissage automatique pour la détection de logiciels malveillants dépendent largement de caractéristiques conçues manuellement, fondées sur les connaissances expertes du domaine, les approches d’apprentissage end-to-end prennent en entrée l’exécutable brut et tentent d’apprendre un ensemble de caractéristiques descriptives directement à partir de celui-ci. Bien que ces dernières puissent se comporter médiocrement dans des problèmes où les données sont rares ou où le jeu de données est déséquilibré. Dans cet article, nous présentons HYDRA, un cadre novateur destiné à résoudre la tâche de détection et de classification des logiciels malveillants en combinant divers types de caractéristiques afin de découvrir les relations entre différentes modalités. Notre approche s’appuie sur des sources variées pour tirer pleinement parti de plusieurs types de caractéristiques et refléter fidèlement les caractéristiques des exécutables malveillants. Nous proposons un système de référence composé à la fois de composants conçus manuellement et d’approches end-to-end, afin de combiner les avantages de l’ingénierie de caractéristiques et de l’apprentissage profond, garantissant ainsi une représentation efficace des caractéristiques des logiciels malveillants. Une analyse approfondie des méthodes de pointe sur la plateforme de référence Microsoft Malware Classification Challenge montre que la solution proposée atteint des résultats comparables à ceux des méthodes de gradient boosting présentes dans la littérature, tout en offrant un rendement supérieur par rapport aux approches basées sur l’apprentissage profond.