Ein end-to-end Deep-Learning-Architektur zur Klassifizierung von Malware-Binärinhalten
Bei herkömmlichen maschinellen Lernverfahren zur Erkennung und Klassifizierung von Malware werden erhebliche Anstrengungen unternommen, um Merkmale manuell auf der Grundlage von Fachwissen und domänenspezifischem Know-how zu entwerfen. Diese Ansätze führen Merkmalsingenieurwesen durch, um Merkmale zu extrahieren, die eine abstrakte Darstellung des Softwareprogramms liefern. Daher hängt die Leistungsfähigkeit des Klassifizierers in erster Linie von der Fähigkeit der Fachexperten ab, eine Reihe beschreibender Merkmale zu extrahieren. Im Gegensatz dazu stellen wir einen dateiunabhängigen, end-to-end Deep-Learning-Ansatz für die Malware-Klassifizierung aus rohen Byte-Sequenzen vor, bei dem keine handgefertigten Merkmale extrahiert werden müssen. Der Ansatz besteht aus zwei Schlüsselkomponenten: (1) einem Rauschunterdrückungs-Autoencoder, der eine verborgene Darstellung des binären Inhalts der Malware lernt; und (2) einem dilatierten Residual-Netzwerk als Klassifizierer. Die Experimente zeigen eine beeindruckende Leistung, wobei eine Genauigkeit von fast 99 % bei der Klassifizierung von Malware in Familien erreicht wird.