LogoDet-3K: Ein großskaliges Bild-Datensatz für Logo-Erkennung

Die Erkennung von Logos gewinnt aufgrund ihrer vielfältigen Anwendungen im Bereich der Multimedia-Technologie zunehmend an Bedeutung, beispielsweise bei der Erkennung von Urheberrechtsverletzungen, der Überwachung der Markenpräsenz oder der Verwaltung von Produktmarken in sozialen Medien. In diesem Artikel stellen wir LogoDet-3K vor, den bisher größten Datensatz für Logoerkennung mit vollständiger Annotation, der 3.000 Logo-Kategorien, etwa 200.000 manuell annotierte Logo-Objekte und 158.652 Bilder umfasst. LogoDet-3K stellt eine anspruchsvollere Benchmark für die Logoerkennung dar, da er im Vergleich zu bestehenden Datensätzen eine höhere umfassende Abdeckung sowie eine größere Vielfalt sowohl in Bezug auf Logo-Kategorien als auch annotierte Objekte bietet. Wir beschreiben den Sammlungs- und Annotierungsprozess unseres Datensatzes und analysieren dessen Skalierung und Vielfalt im Vergleich zu anderen Datensätzen für die Logoerkennung. Darüber hinaus schlagen wir eine starke Basismethode, Logo-Yolo, vor, die die Focal-Loss und die CIoU-Loss in den modernsten YOLOv3-Framework integriert, um die Erkennung großer Mengen an Logos zu ermöglichen. Logo-Yolo adressiert Probleme wie Objekte unterschiedlicher Skalen, Ungleichgewicht der Logo-Beispiele sowie inkonsistente Bounding-Box-Regression. Im Vergleich zu YOLOv3 erreicht Logo-Yolo eine durchschnittliche Leistungssteigerung um etwa 4 % und signifikant höhere Verbesserungen im Vergleich zu mehreren bereits veröffentlichten tiefen Erkennungsmodellen auf dem LogoDet-3K-Datensatz. Die Evaluierung auf drei weiteren existierenden Datensätzen bestätigt zudem die Wirksamkeit unserer Methode und zeigt eine überlegene Generalisierungsfähigkeit von LogoDet-3K bei Aufgaben der Logoerkennung und -retrieval. Der Datensatz LogoDet-3K wird zur Förderung umfangreicher Forschung im Bereich der Logo-Technologie eingesetzt und ist unter https://github.com/Wangjing1551/LogoDet-3K-Dataset verfügbar.