17 天前
LogoDet-3K:一个大规模图像数据集,用于Logo检测
Jing Wang, Weiqing Min, Sujuan Hou, Shengnan Ma, Yuanjie Zheng, Shuqiang Jiang

摘要
Logo检测因其在多媒体领域的广泛应用而受到越来越多的关注,例如版权侵权检测、品牌可见性监控以及社交媒体上的产品品牌管理。本文提出LogoDet-3K,这是目前规模最大的全标注Logo检测数据集,包含3,000个Logo类别、约20万个手工标注的Logo目标,以及158,652张图像。相较于现有数据集,LogoDet-3K在Logo类别和标注对象的覆盖范围与多样性方面均显著提升,从而为Logo检测任务构建了一个更具挑战性的基准。本文详细描述了数据集的采集与标注流程,并从规模与多样性两个维度对LogoDet-3K与其他现有Logo检测数据集进行了对比分析。为进一步推动大规模Logo检测研究,本文提出一种强基线方法——Logo-Yolo。该方法在当前先进的YOLOv3框架基础上,引入Focal Loss与CIoU Loss,有效应对多尺度目标、Logo样本不平衡以及边界框回归不一致等关键挑战。实验结果表明,与原始YOLOv3相比,Logo-Yolo在平均性能上提升了约4%,且在LogoDet-3K数据集上相较已有多种深度检测模型展现出更显著的性能优势。此外,在其他三个现有数据集上的评估进一步验证了该方法的有效性,充分体现了LogoDet-3K在Logo检测与检索任务中良好的泛化能力。LogoDet-3K数据集旨在推动大规模Logo相关研究的发展,现已开源,可通过以下地址获取:https://github.com/Wangjing1551/LogoDet-3K-Dataset。