LogoDet-3K: 로고 탐지용 대규모 이미지 데이터셋

로고 탐지 기술은 저작권 침해 탐지, 소셜 미디어에서의 브랜드 인지도 모니터링, 제품 브랜드 관리 등 멀티미디어 분야에서 넓은 응용 가능성을 지녀 최근 많은 주목을 받고 있다. 본 논문에서는 3,000개의 로고 카테고리, 약 20만 개의 수동 레이블링된 로고 객체, 총 158,652개의 이미지를 포함하는, 완전한 레이블링을 갖춘 최대 규모의 로고 탐지 데이터셋인 LogoDet-3K를 소개한다. 기존 데이터셋에 비해 로고 카테고리 및 레이블링된 객체의 종류와 포괄성 면에서 훨씬 높은 다양성과 포괄성을 제공함으로써, 로고 탐지에 있어 더 도전적인 기준을 제시한다. 본 연구에서는 데이터셋의 수집 및 레이블링 과정을 설명하고, 기존 로고 탐지 데이터셋들과의 규모 및 다양성 측면에서의 비교 분석을 수행한다. 또한, 대규모 로고 탐지에 적합하도록 최신 YOLOv3 아키텍처에 Focal Loss와 CIoU Loss를 통합한 강력한 기준 모델인 Logo-Yolo를 제안한다. Logo-Yolo는 다중 스케일 객체 처리, 로고 샘플 불균형 문제, 경계 상자 회귀의 일관성 부족 등의 문제를 효과적으로 해결할 수 있으며, YOLOv3 대비 평균 성능에서 약 4%의 향상을 달성하고, 기존 보고된 여러 딥 러닝 탐지 모델들에 비해 더 뛰어난 성능 향상을 보였다. 또한, 기존의 세 개의 다른 데이터셋에 대한 평가를 통해 제안한 방법의 효과성을 추가로 입증하였으며, LogoDet-3K가 로고 탐지 및 검색 작업에서 우수한 일반화 능력을 지닌다는 점을 시사한다. LogoDet-3K 데이터셋은 대규모 로고 관련 연구를 촉진하기 위해 활용될 수 있으며, GitHub에서 다음 링크를 통해 접근할 수 있다: https://github.com/Wangjing1551/LogoDet-3K-Dataset.