HyperAIHyperAI
vor 18 Tagen

Hierarchische Faltungsneuronale Netze für die Malware-Klassifikation

{Jordi Planes, Carles Mateu, Daniel Gibert}
Abstract

Die Erkennung und Klassifizierung von Malware ist ein herausforderndes und aktives Forschungsfeld. Besondere Schwierigkeiten ergeben sich dabei aus der optimalen Behandlung und Vorverarbeitung schädlicher Ausführbare Dateien, um sie effektiv in maschinelles Lernen einzubinden. In der Literatur werden ausgehend von neuartigen Ansätzen ausführbare Dateien entweder als Byte-Sequenz oder als Sequenz von Assembler-Befehlen betrachtet. Allerdings berücksichtigen diese Ansätze nicht die hierarchische Struktur von Programmen. Eine ausführbare Datei weist verschiedene Ebenen räumlicher Korrelation auf: benachbarte Befehle sind räumlich korreliert, doch dies gilt nicht zwangsläufig für alle Befehle. Funktionsaufrufe und Sprungbefehle übertragen die Kontrolle des Programms an eine andere Stelle im Befehlsstrom. Diese Diskontinuitäten bleiben erhalten, wenn das Binärimage als Sequenz von Byte-Werten betrachtet wird. Zudem können Funktionen zufällig angeordnet sein, falls die Adressen korrekt neu organisiert wurden. Um diese Probleme anzugehen, schlagen wir ein hierarchisches Faltungsnetzwerk (Hierarchical Convolutional Network, HCN) für die Malware-Klassifizierung vor. Es verfügt über zwei Ebenen von Faltungsblöcken, die jeweils auf der Ebene der Befehlsmnemoniken und auf der Ebene der Funktionen angewendet werden, wodurch es möglich wird, n-Gramm-ähnliche Merkmale aus beiden Ebenen zu extrahieren, um eine umfassende Malware-Repräsentation zu konstruieren. Wir validieren unsere HCN-Methode anhand des Datensatzes, der im Rahmen der Microsoft Malware Classification Challenge veröffentlicht wurde, und erreichen dabei eine Leistung, die nahezu alle in der Literatur vorgestellten tiefen Lernverfahren übertrifft.