Faltungssiebnetzwerk zur Klassifizierung von Malware-Assemblercode
Traditionelle, auf Signaturen basierende Methoden erweisen sich zunehmend als unzureichend, um Malware der nächsten Generation zu erkennen, die fortgeschrittene Obfuskationstechniken (polymorph und metamorph) einsetzen, um die Erkennung zu umgehen. In jüngster Zeit wurden Forschungsanstrengungen unternommen, um Malware-Erkennung und -Klassifizierung mittels maschinellen Lernens zu verbessern. Trotz dieser Bemühungen basieren die meisten Ansätze weiterhin auf flachen Lernarchitekturen und setzen auf die manuelle Extraktion von handgefertigten Merkmalen. In diesem Artikel präsentieren wir auf der Grundlage von Assemblersprachcode, der aus dekompilierten Binärdateien extrahiert und in Vektoren eingebettet wurde, eine architektonische Lösung basierend auf einem konvolutionellen neuronalen Netzwerk, das eine Reihe diskriminativer Muster lernt, um Malware-Dateien innerhalb von Familien zu gruppieren. Um die Eignung unseres Ansatzes zu belegen, haben wir unser Modell anhand der von Microsoft für die BigData Innovators Gathering 2015 Anti-Malware Prediction Challenge bereitgestellten Daten evaluiert. Die Experimente zeigen, dass die Methode wettbewerbsfähige Ergebnisse erzielt, ohne auf die manuelle Merkmalsextraktion angewiesen zu sein, und robust gegenüber den gängigsten Obfuskationstechniken ist.