Deep Convolutional Forest: Ein dynamischer Deep-Ensemble-Ansatz zur Spam-Erkennung in Texten

Die Zunahme der Nutzung mobiler Messaging-Dienste hat die Verbreitung von Social-Engineering-Angriffen wie Phishing begünstigt, da Spam-Nachrichten eine der Hauptursachen für die Verbreitung von Phishing-Angriffen sind, die darauf abzielen, sensible Daten wie Kreditkarteninformationen und Passwörter zu stehlen. Zudem werden auf sozialen Medien weit verbreitet Gerüchte und falsche medizinische Informationen im Zusammenhang mit der COVID-19-Pandemie geteilt, was zu Angst und Verwirrung bei der Bevölkerung führt. Daher ist die Filterung von Spam-Inhalten von entscheidender Bedeutung, um Risiken und Bedrohungen zu reduzieren. Bisherige Studien basierten auf maschinellem Lernen und tiefem Lernen für die Spam-Klassifikation, doch diese Ansätze weisen zwei wesentliche Einschränkungen auf: Maschinelle Lernmodelle erfordern eine manuelle Merkmalsingenieurarbeit, während tiefe neuronale Netze hohe Rechenkosten verursachen. In diesem Artikel wird ein dynamisches tiefes Ensemble-Modell für die Spam-Erkennung vorgestellt, das seine Komplexität anpasst und Merkmale automatisch extrahiert. Das vorgeschlagene Modell nutzt Faltungs- und Pooling-Schichten zur Merkmalsextraktion sowie Basis-Klassifikatoren wie Random Forests und Extremely Randomized Trees zur Klassifizierung von Texten als Spam oder legitim. Zudem werden Ensemble-Lernverfahren wie Boosting und Bagging eingesetzt. Als Ergebnis erreicht das Modell eine hohe Genauigkeit, Recall, F1-Score und Präzision von jeweils 98,38 %.