HyperAIHyperAI
vor 18 Tagen

Orthrus: Eine zweimodale Lernarchitektur für die Malware-Klassifikation

{Jordi Planes, Carles Mateu, Daniel Gibert}
Abstract

Die Erkennung und Klassifikation von Malware stellt ein herausforderndes und aktives Forschungsgebiet dar. Traditionelle maschinelle Lernverfahren hängen nahezu vollständig von der Fähigkeit ab, eine Reihe diskriminativer Merkmale zu extrahieren, die Malware charakterisieren. Der Prozess der Merkmalsextraktion ist jedoch äußerst zeitaufwendig. Im Gegensatz dazu ersetzen tiefgreifende Lernmethoden die manuelle Merkmalsextraktion durch ein System, das gleichzeitig Merkmalsextraktion und Klassifikation aus Rohdaten durchführt. Dennoch weisen diese Methoden eine erhebliche Schwäche auf: Sie berücksichtigen bei der Klassifikation nicht mehrere unterschiedliche Informationsquellen, wodurch ihre Leistung im Vergleich zu multimodalen Ansätzen deutlich schlechter ausfällt. In dieser Arbeit stellen wir Orthrus vor, einen neuen bimodalen Ansatz zur Klassifikation von Malware in Familien mittels tiefen Lernverfahren. Orthrus kombiniert zwei Datentypen: (1) die Byte-Sequenz, die den binären Inhalt der Malware repräsentiert, sowie (2) die Assemblersprachen-Befehle, die aus dem Assemblersprach-Quellcode der Malware extrahiert wurden. Mit einem konvolutionellen neuronalen Netzwerk führt Orthrus automatisches Merkmalslernen und Klassifikation durch. Ziel ist es, durch die Nutzung mehrerer Merkmalsarten eine umfassendere Darstellung der Merkmale von Malware zu erreichen. Experimente am Datensatz des Microsoft Malware Classification Challenge zeigen, dass unsere vorgeschlagene Lösung eine höhere Klassifikationsleistung erzielt als tiefgreifende Lernansätze aus der Literatur sowie n-Gramm-basierte Methoden.