Forêt convolutive profonde : une approche d'ensemble dynamique profonde pour la détection de spam dans les textes

L’augmentation de l’utilisation des services de messagerie mobile a favorisé la propagation d’attaques d’ingénierie sociale telles que le phishing, le spam textuel étant l’un des principaux vecteurs de diffusion de ces attaques visant à voler des données sensibles telles que les numéros de carte bancaire ou les mots de passe. En outre, les rumeurs et les informations médicales erronées concernant la pandémie de COVID-19 sont largement partagées sur les réseaux sociaux, entraînant peur et confusion chez les utilisateurs. Il est donc essentiel de filtrer efficacement le contenu indésirable afin de réduire les risques et menaces associés. Les études antérieures se sont appuyées sur des approches d’apprentissage automatique et d’apprentissage profond pour la classification du spam, mais celles-ci présentent deux limitations majeures : les modèles d’apprentissage automatique nécessitent une ingénierie manuelle des caractéristiques, tandis que les réseaux de neurones profonds exigent des coûts computationnels élevés. Ce papier présente un modèle dynamique d’ensemble profond pour la détection de spam, capable d’ajuster automatiquement sa complexité et d’extraire les caractéristiques sans intervention humaine. Le modèle proposé utilise des couches de convolution et de pooling pour l’extraction de caractéristiques, combinées à des classificateurs de base tels que les forêts aléatoires (random forests) et les arbres extrêmement aléatoires (extremely randomized trees), afin de classer les textes en « spam » ou « légitimes ». En outre, il intègre des procédures d’apprentissage par ensemble, telles que le boosting et le bagging. En conséquence, le modèle atteint des performances élevées, avec une précision, un rappel, un score F1 et une exactitude de 98,38 %.