
摘要
随着人们日益广泛地使用移动消息服务,社交工程类攻击(如网络钓鱼)也呈蔓延趋势。由于垃圾短信是网络钓鱼攻击传播的主要途径之一,此类攻击常被用于窃取信用卡信息、密码等敏感数据。此外,在新冠疫情期间,社交媒体上广泛传播谣言及不准确的医疗信息,引发公众恐慌与困惑。因此,有效过滤垃圾信息内容对于降低安全风险至关重要。以往的研究多采用机器学习和深度学习方法进行垃圾信息分类,但这些方法存在两个主要局限:机器学习模型依赖人工特征工程,而深度神经网络则需要较高的计算成本。本文提出一种动态深度集成模型,用于垃圾信息检测,该模型能够自动调整复杂度并实现特征的自动提取。所提出的模型结合卷积层与池化层进行特征提取,并采用随机森林、极随机树等基分类器,将文本分类为垃圾信息或合法信息。同时,模型还引入集成学习技术,如提升法(boosting)与自助采样法(bagging)。实验结果表明,该模型在精确率、召回率、F1分数和准确率方面均达到98.38%的高水平,展现出优异的性能。