HyperAIHyperAI

Command Palette

Search for a command to run...

基于多视觉光谱无人机影像的军事目标检测对比分析

Sourov Roy Shuvo Prajwal Panth Rajesh Chowdhury Sorup Chakraborty Sudip Chakrabarty Prasant Kumar Pattnaik

摘要

在现代战争中,无人机已成为情报收集以及在各类敌对环境中执行精确打击的重要组成部分。其能够在安全距离外实时运行并适应敌对环境的能力,使其在监视和军事行动中具有不可替代的价值。KIIT-MiTA数据集包含从无人机拍摄的多种军事场景图像,为军事目标检测提供了基础,但并未涵盖各种类型的真实世界场景。鉴于此,为了评估模型在不同条件下的性能,我们构建了四种不同类型的数据集:灰度图像、热成像、夜视图像和暗光视觉图像。这些数据集模拟了低能见度、基于热量的图像以及夜间条件等真实世界环境。本研究训练并使用了YOLOv11-small模型,以在多样化场景中检测目标。通过推动防御性和进攻性任务中先进检测系统的开发,本研究提升了基于无人机的操作的性能和可靠性。

一句话总结

本研究通过引入四个数据集(灰度、热成像、夜视和 ObscuraVision),对基于无人机影像的军事目标检测进行了对比分析,旨在训练并评估 YOLOv11-small 模型在不同环境条件下的性能,以提升检测的可靠性。

核心贡献

  • 本文引入了四个源自 KIIT-MiTA 数据集的专用数据变体:灰度(Gray Scale)、热成像(Thermal Vision)、夜视(Night Vision)和 ObscuraVision。这些变体模拟了低能见度、基于热成像以及夜间条件等具有挑战性的军事环境。
  • 开发了一套系统的评估框架,用于在多种视觉条件下测试 YOLOv11-small 目标检测架构。该评估量化了模型针对动态防御场景中典型环境退化因素的鲁棒性。
  • 实验结果表明,模型在所有模拟成像模态下均保持了稳定的检测精度与运行可靠性。这些发现为提升敌对环境下基于无人机的监控系统性能建立了基准。

引言

基于无人机的目标检测对现代军事监视与防御至关重要,但在低光照、热梯度及大气遮蔽物等恶劣环境中保持高精度仍是一个持续存在的挑战。以往研究主要侧重于受控环境或传统检测器,往往难以应对传感器噪声、分辨率粗糙以及专用成像模态公共标注数据集缺失等问题。为克服这些局限,作者利用 YOLOv11-small 架构,并系统评估了其在 KIIT-MITA 数据集四个转换版本上的性能。通过模拟灰度、热成像、夜视和遮蔽条件,研究为模型鲁棒性提供了可操作的见解,最终推动了动态作战场景中自主无人机系统的可靠性发展。

数据集

数据集构成与来源

  • 作者使用了 KIIT-MiTA 数据集,该数据集包含由军用无人机在各种作战场景中捕获的 1,700 张高分辨率图像。
  • 每张图像均配有超过 4,100 个手动标注的标签,存储为 YOLO 格式,并包含带有归一化边界框坐标和类别标识符的独立文本文件。
  • 标注内容涵盖七类不同的军事目标:火炮(Artillery)、导弹(Missile)、雷达(Radar)、多管火箭发射器(Multiple Rocket Launcher)、士兵(Soldier)、坦克(Tank)和车辆(Vehicle)。

子集详情与转换处理

  • 为评估不同环境条件下的检测性能,作者从原始图像中生成了四个专用子集。
  • ThermalVision 采用 OpenCV 的灰度转换,随后进行 COLORMAP INFERNO 映射与全范围归一化,以模拟红外传感器输出。
  • NightVision 将图像转换为灰度,使用 OpenCV 的 convertScaleAbs 函数增强亮度与对比度,并叠加加权绿色通道以复制单色夜视光学效果。
  • Grayscale 完全移除颜色通道,以强调边缘、轮廓和物体几何结构,适用于颜色数据不可靠的场景。
  • ObscuraVision 引入可控的环境干扰以模拟现实世界的能见度挑战,应用 3 的模糊限制、约 0.1 的雾气系数以及限制在 0.1 以内的对比度与亮度调整,以代表约 25% 的视觉退化。

数据使用与模型集成

  • 作者将原始数据集划分为训练集、验证集和测试集,以支持模型开发、超参数调优及最终性能评估。
  • 在这些子集上训练 YOLOv11-small 架构,以评估模型在模拟热成像、夜间及遮蔽条件下的目标检测鲁棒性。
  • 对转换后的子集进行单独与对比评估,以衡量检测流水线在面对领域偏移和低层视觉干扰时的泛化能力。

处理与元数据构建

  • 所有视觉转换均依赖 OpenCV 函数,以确保可复现的领域偏移,同时保留原始帧的底层空间结构。
  • 所有子集的标注元数据保持一致,保留原始 YOLO 标签文件和归一化坐标系,未作修改。
  • 作者对全帧图像进行处理,未应用任何裁剪策略,确保保留用于空中监视任务的上下文场景信息。

方法

所提出的方法核心是一个多模态目标检测流水线,旨在多种成像条件下实现稳健性能。系统始于一个包含四种不同图像模态的数据集:热成像、灰度、夜视和 ObscuraVision。每种模态提供独特的视觉信息,使模型能够在不同环境约束下增强目标检测能力。这些输入数据通过 YOLOv11s 模型进行处理,该模型是一种轻量化且高效的深度学习架构,专为实时应用优化。模型执行预处理、推理和后处理,以识别并定位每帧中的目标。检测完成后,计算关键性能指标(包括 mAP@50、mAP@50-95、精确率、召回率和 F1 分数),以评估检测精度与效率。随后对结果进行性能分析,通过对比各模态的输出来确定最有效的检测策略。如下图所示,工作流程从数据集输入开始,经过模型推理与性能评估,最终形成对系统能力的全面评估。

实验

YOLOv11s 模型在灰度、热成像、夜视和 ObscuraVision 模态下进行了训练与对比评估,以验证其在多样且视觉上具有挑战性的条件下定位军事目标的鲁棒性。夜视被证明是最准确的模态,在检测可靠性至关重要的应用中表现最佳,而热成像和 ObscuraVision 输入则在精确率与推理速度之间提供了良好的平衡。灰度处理速度最快,但检测精度最低,将其应用限制在可容忍可靠性降低的延迟敏感场景中。总体而言,模型在退化环境中保持了稳定的分类与定位能力,表明模态选择应基于对计算效率与检测性能之间权衡的需求。

作者使用精确率、召回率、F1 分数和训练时间等标准指标,评估了目标检测模型在四种视觉模态下的性能。结果显示,夜视实现了最高的精确率与召回率,而灰度在这些指标上表现最低。各模态的训练时间略有差异,其中热成像所需的训练时间最长。夜视在测试的模态中取得了最高的精确率与召回率。与其余模态相比,灰度表现出最低的精确率、召回率和 F1 分数。训练时间因模态而异,热成像需要最长的训练周期。

作者展示了一个混淆矩阵,可视化了目标检测模型在灰度数据集上的性能,呈现了跨多个军事目标类别的分类结果。该矩阵说明了真实标签与预测标签的分布,突出了正确分类与误分类的情况,对角线上的最高值表明大多数类别的整体性能较强。模型在多个类别上实现了高精度,这由混淆矩阵对角线上的较大数值所体现。存在明显的误分类现象,尤其是火炮与导弹之间经常相互混淆。模型在区分不同目标类型方面表现强劲,大多数类别的假阳性率相对较低。

作者使用 mAP@50 和 mAP@50-95 等指标,评估了目标检测模型在灰度、热成像、夜视和 ObscuraVision 四种视觉模态下的性能。结果显示,夜视实现了最高的检测精度,其次是 ObscuraVision 和热成像,而灰度尽管处理速度最快,但在精度方面表现最差。模型在不同成像条件下展现出鲁棒性,在精度与推理速度之间存在性能权衡。夜视在所有模态中取得了最高的检测精度。ObscuraVision 在精度与处理速度之间提供了良好的平衡。灰度提供了最快的处理时间,但检测精度最低。

实验在四种成像模态下评估了目标检测模型,以检验其在不同视觉条件下的分类精度、计算效率与鲁棒性。定性分析表明,夜视始终提供最高的检测性能,而灰度尽管精度较低,却提供了最快的处理速度。热成像需要最长的训练周期,ObscuraVision 则在精确率与推理速度之间提供了均衡的权衡。总体而言,模型展现出强大的跨模态适应能力,尽管由于视觉相似性,某些目标类别仍易发生误分类。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供