Command Palette
Search for a command to run...
重力小镇:移动设备鱼叉式网络钓鱼的域名生成算法(DGA)检测方法比较分析
重力小镇:移动设备鱼叉式网络钓鱼的域名生成算法(DGA)检测方法比较分析
Adam Dorian Wong John D. Hastings
摘要
移动设备频繁成为电子犯罪(eCrime)攻击者的目标,攻击者通过短信鱼叉式钓鱼(smishing)链接利用域名生成算法(Domain Generation Algorithms, DGA)轮换恶意基础设施。然而,现有的 DGA 研究与评估大多侧重于恶意软件命令与控制(C2)通信及电子邮件钓鱼数据集,导致缺乏关于检测器在突破企业边界后,针对 smishing 驱动的域名策略的泛化能力的实证依据。为填补这一空白,本研究利用“格劳弗斯”(Gravity Falls)这一新型半合成数据集,评估了传统及基于机器学习的 DGA 检测器性能。该数据集源自 2022 年至 2025 年间交付的 smishing 链接。Gravity Falls 数据集记录了一个特定攻击团伙在四个技术簇中的演变轨迹:从早期的短随机字符串,逐步转向字典词拼接及带有主题组合的抢注域名变体,此类变体主要用于凭证窃取以及费用/罚款欺诈。研究采用两种字符串分析方法(香农熵和 Exp0se)及两种基于机器学习的检测器(LSTM 分类器与 COSSAS DGAD),并以 Top-1M 域名作为良性基线进行评估。结果表明,检测性能高度依赖于具体战术:对于随机字符串类域名,检测性能较高;但在字典拼接和主题组合抢注类域名上性能显著下降,且多种工具与战术簇组合的召回率均处于低位。总体而言,无论是传统启发式方法还是最新的机器学习检测器,均难以有效应对 Gravity Falls 数据集中观察到的持续演变的 DGA 战术。这一发现突显了开发更具上下文感知能力(context-aware)的检测方法的必要性,同时本研究也为未来的评估工作提供了一个可复现的基准。
一句话总结
达科他州立大学的 Adam Dorian Wong 和 John D. Hastings 介绍了 Gravity Falls——一个源自短信钓鱼(smishing)的半合成 DGA 数据集(涵盖 2022–2025 年),揭示了传统启发式方法和机器学习检测器(包括 LSTM 和 COSSAS DGAD)均无法应对“主题组合抢注”等不断演进的攻击策略,呼吁在移动威胁环境中采用上下文感知的防御机制。
主要贡献
- 本文引入 Gravity Falls,这是一个新的半合成 DGA 数据集,源自 2022–2025 年真实世界的短信鱼叉式钓鱼活动,捕捉了同一攻击者在四个技术集群中的战术演进——从随机字符串到主题组合抢注——填补了此前以恶意软件 C2 和电子邮件数据集为主导的移动端 DGA 研究空白。
- 作者使用 Top-1M 域名作为良性基线,评估了四种 DGA 检测器(Shannon 熵、Exp0se、LSTM、COSSAS DGAD)在 Gravity Falls 上的表现,发现所有方法在词典型和主题型域名上均表现不佳,显示出性能依赖于攻击战术,且在多个工具-集群组合中召回率偏低。
- 研究结果表明,传统启发式方法和近期基于机器学习的检测器均不适用于短信钓鱼中动态、富含上下文的 DGA 模式,推动了上下文感知检测方法的发展,并为未来移动威胁基础设施评估提供了可复现的基准。
引言
作者利用 Gravity Falls 数据集——一个 2022 至 2025 年间由短信钓鱼驱动的半合成 DGA 域名集合——评估传统和机器学习 DGA 检测器在企业网络之外面对真实世界不断演进攻击战术时的表现。尽管先前研究主要关注恶意软件 C2 或电子邮件钓鱼,短信钓鱼则针对防护更少的个人用户,且域名快速轮换,因此检测至关重要但研究不足。作者发现,基于熵的启发式方法和现代机器学习模型(如 LSTM 和 COSSAS DGAD)在词典拼接和主题组合抢注变体上均表现不佳,揭示了检测器对战术变化缺乏适应性。其主要贡献是提供了一个新的基准数据集,并证明当前工具不足以应对短信钓鱼特有的 DGA 演进,呼吁采用上下文感知的检测方法。
数据集

-
作者使用 Gravity Falls 数据集,该数据集由 2022 至 2025 年通过短信分发的 C2 域名组成,按四个技术集群组织,反映同一攻击者 TTPs 的年度演进。数据为半合成,混合了观测到的恶意域名与用于 Sinkholing 和测量的预测域名。
-
每个集群具有不同特征:
- Cats Cradle(2022):7 字符短随机域名,使用常见 TLD;着陆页模仿验证码门户。
- Double Helix(2023):词典词拼接,使用较新 gTLD;偶尔截断暗示编码限制。
- Pandoras Box(2024):专业包裹投递诱饵;组合抢注加随机后缀;大量使用中国基础设施。
- Easy Rider(2025):政府/收费主题诱饵;转向邮件转 iMessage/SMS,使用境外号码;组合抢注趋于稳定。
-
对照组(每组 10,000 个域名)从 Alexa、Cisco、Cloudflare 和 Majestic Top-1M 列表(2017–2025)抽取,作为良性基线。实验组将每个集群的 5,000 个恶意域名与 Alexa Top-1M 中的 5,000 个域名混合,以保持一致规模;因 Alexa 数据静态,被用于填充。
-
数据通过接收端短信观察收集,随后进行 WHOIS 查询(通过 DomainTools)、被动 DNS 查询(SecurityTrails)和 URL 快照(URLscan)。自 2024 年起,Iris Investigate 取代人工流程,支持链接图和结构化 CSV 导出。IOCs 最初通过 OTX 共享,后迁移至 GitHub 并经过整理以避免平台暂停。
-
模型评估中,域名使用 Claude AI 脚本随机化,按顺序输入工具(对照组 A–D,然后实验组 A–D),恶意样本置于良性样本前以测试模型是否可能“同化”数据。除工具输出外未进行显式裁剪或元数据构建,但未来工作建议通过 DomainTools 进行回溯标准化以提高保真度。
方法
作者采用两种不同的验证码生成技术评估目标验证机制,每种技术旨在模拟人类输入模式,同时引入受控随机性以对抗自动化系统。
第一种方法 Cats Cradle(2022),系统生成长度在 5 至 8 个字符之间的随机字母序列。该方法依赖字母排列的感知不可预测性挑战自动化求解器,同时保持结构对人类用户可读和可解释。该技术不强制语义含义,而是优先利用视觉和排版变异性作为机器识别的屏障。
第二种方法 Double Helix(2023),采用更语言学导向的策略,通过拼接词典词对。这种双词结构保留语义一致性,同时增加组合复杂性,使机器人更难猜测或暴力破解有效输入。作者在相同目标下评估两种技术:通过部署模拟真实世界对抗条件的虚假验证码来验证目标系统。
源材料中未提供架构图或训练工作流;焦点仍在于验证码生成策略的设计与意图,而非其实施或评估基础设施。
实验
- 使用传统和基于机器学习的检测器评估四种域名生成战术(Cats Cradle、Double Helix、Pandoras Box、Easy Rider),发现仅在随机域名(Cats Cradle)上表现优异,在词典型或组合抢注变体上检测效果差。
- 传统检测器如 Exp0se 在高熵域名上表现优异,但在结构化、词典驱动的战术上表现不佳,证实其作用更像高通量筛选器而非全面解决方案。
- 基于机器学习的工具(LSTM、DGAD)在随机域名之外泛化能力有限,表明当前模型对混合品牌标记和轻微随机化的现实短信钓鱼战术不够鲁棒。
- 防御者应采用分层策略:对明显随机域名使用词法启发式方法,对更复杂的战术补充上下文信号(消息内容、基础设施、品牌滥用策略)。
- 大语言模型(LLMs)在识别各集群主题模式方面展现出潜力,暗示未来集成可增强检测能力。
- 实验局限性包括半合成数据、采样重复、良/恶意域名比例失衡及过时的良性基线,这些均限制了泛化能力,应在后续工作中解决。
作者在四种不同的域名生成战术上评估了四种域名检测方法,发现性能随战术类型显著变化。传统和基于机器学习的检测器在随机域名上实现高精度和准确率,但在词典型和主题组合抢注域名上表现不佳。结果表明,当前工具对混合可识别词汇与轻微随机化的现实短信钓鱼战术缺乏鲁棒性。
