DetectiumFire 多模态火灾理解数据集
DetectiumFire 是由杜兰大学联合 Aalto University 于 2025 年发布的一个面向火焰检测、视觉推理与多模态生成任务的数据集,相关论文成果为「DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding」,已经被纳入 NeurIPS 2025 Datasets and Benchmarks Track,旨在为计算机视觉与视觉 – 语言模型提供统一的火焰场景训练与评测资源。
该数据集包含超过 14.5 万张高质量真实火灾图像和 2.5 万个火灾相关视频。除了真实数据外,它还包括 8000 张使用基于扩散模型生成的合成火灾图像,以及在 RLHF 过程中精心挑选的 12000 个偏好对,以增强模型对齐。涵盖真实与合成的火焰及非火焰图像与视频,并附带火焰程度、环境信息、文本描述及人类偏好标注。整体由四部分构成:真实图像、真实视频、扩散模型生成的合成火焰图像,以及基于成对比较的人类偏好数据。其中,合成图像提供 YOLO 格式的检测标注,而偏好数据用于记录生成质量的人工判断依据。
数据集构成:
- 真实图像(real_images)
- fire:真实火焰图像及 YOLO 格式标注
- non_fire:无火焰但易混淆的困难负例(如强光、烟雾、日落)
- 真实视频(real_video)
- fire:包含可见火焰的真实视频片段
- non_fire:无火焰场景,用于鲁棒性评测
- 合成图像(synthetic_images)
- stable_diff_v15/train:SFT 微调生成图像 + YOLO 注释
- dpo_stable_diff_v15/train:DPO 微调生成图像 + YOLO 注释
- 偏好数据(preference_dataset)
- preference.json:成对生成图像的人类偏好比较与解释,用于 RLHF/DPO 训练
