LogoDet-3K:ロゴ検出のための大規模画像データセット

ロゴ検出は、著作権侵害の検出、ブランドの可視性モニタリング、ソーシャルメディア上の製品ブランド管理など、マルチメディア分野における広範な応用が期待されるため、近年注目を集めている。本論文では、完全なアノテーションを備えた最大規模のロゴ検出データセット「LogoDet-3K」を紹介する。このデータセットは3,000種類のロゴカテゴリ、約20万件の手動アノテーションされたロゴオブジェクト、158,652枚の画像を含んでおり、既存のデータセットと比較して、ロゴカテゴリおよびアノテーション対象の多様性と包括性がさらに高いことから、ロゴ検出の課題をより困難なベンチマークとして構築している。本研究では、データセットの収集およびアノテーションプロセスを詳細に記述し、他のロゴ検出データセットと比較しての規模と多様性について分析する。さらに、大規模なロゴ検出に適した強力なベースライン手法「Logo-Yolo」を提案する。この手法は、最先端のYOLOv3フレームワークにFocal LossとCIoU Lossを統合することで、マルチスケールオブジェクトの検出、ロゴサンプルの不均衡、およびバウンディングボックス回帰の不一致といった課題を効果的に解決する。実験結果から、YOLOv3と比較して平均性能で約4%の向上を達成し、既存の複数の深層検出モデルと比較しても顕著な改善が得られた。さらに、他の3つの既存データセットに対する評価を通じて、本手法の有効性が裏付けられ、LogoDet-3Kがロゴ検出および検索タスクにおける優れた汎化能力を有していることが示された。LogoDet-3Kデータセットは大規模なロゴ関連研究の促進を目的としており、GitHubにて公開されている(https://github.com/Wangjing1551/LogoDet-3K-Dataset)。