Une architecture d’apprentissage profond bout-en-bout pour la classification du contenu binaire de logiciels malveillants
Dans les techniques traditionnelles d'apprentissage automatique pour la détection et la classification des logiciels malveillants, des efforts considérables sont consacrés à la conception manuelle de caractéristiques fondée sur l'expertise et les connaissances spécifiques au domaine. Ces approches effectuent une ingénierie de caractéristiques afin d'extraire des représentations abstraites du programme logiciel. Par conséquent, la performance du classificateur dépend en grande partie de la capacité des experts du domaine à extraire un ensemble de caractéristiques descriptives. À la place, nous proposons une approche d'apprentissage profond end-to-end, indépendante du format du fichier, pour la classification des logiciels malveillants à partir de séquences brutes d'octets, sans nécessiter d'extraction de caractéristiques manuelles. Cette méthode repose sur deux composants clés : (1) un autoencodeur débruitant, qui apprend une représentation cachée du contenu binaire du logiciel malveillant ; et (2) un réseau résiduel à dilatation, utilisé comme classificateur. Les expérimentations montrent des performances remarquables, atteignant une précision proche de 99 % dans la classification des logiciels malveillants par familles.