HYDRA: Ein multimodales Deep-Learning-Framework für die Malware-Klassifikation
Während traditionelle maschinelle Lernverfahren zur Malware-Erkennung weitgehend auf handkodierten Merkmalen basieren, die auf fachlichem Wissen der Experten im Bereich beruhen, verwenden end-to-end-Lernansätze die rohe ausführbare Datei als Eingabe und versuchen, eine Reihe beschreibender Merkmale daraus zu lernen. Obwohl letztere Ansätze in Problemen mit geringen Datenmengen oder unbalancierten Datensätzen schlecht abschneiden können, stellen wir in diesem Artikel HYDRA vor – einen neuartigen Rahmen, um die Aufgabe der Malware-Erkennung und -Klassifikation durch die Kombination verschiedener Merkmalsarten zu lösen, um die Beziehungen zwischen unterschiedlichen Modalitäten aufzudecken. Unser Ansatz lernt aus mehreren Quellen, um die Vorteile verschiedener Merkmalsarten zu maximieren und die Eigenschaften von Malware-Exekutablen präzise zu erfassen. Wir schlagen ein Basissystem vor, das sowohl handkodierte als auch end-to-end-Komponenten umfasst, um die Vorteile der Merkmalsingenieurkunst und des tiefen Lernens zu kombinieren, sodass die Merkmale von Malware effektiv repräsentiert werden. Eine umfassende Analyse state-of-the-art-Methoden auf der Microsoft Malware Classification Challenge-Benchmark zeigt, dass die vorgeschlagene Lösung Ergebnisse erzielt, die mit Gradient-Boosting-Methoden aus der Literatur vergleichbar sind, und gleichzeitig eine höhere Ausbeute im Vergleich zu reinen Deep-Learning-Ansätzen erzielt.