Unitail: Erkennen, Lesen und Zuordnen in der Einzelhandelslandschaft

Um die Computer-Vision-Technologie in Geschäften vollständig zu nutzen, ist es erforderlich, die tatsächlichen Bedürfnisse zu berücksichtigen, die den Charakteristiken des Einzelhandels entsprechen. Im Einklang mit diesem Ziel stellen wir die United Retail Datasets (Unitail) vor, einen umfangreichen Benchmark für grundlegende visuelle Aufgaben an Produkten, der Algorithmen zur Detektion, Lesung und Zuordnung herausfordert. Mit 1,8 Millionen quadratischen Instanzen annotiert bietet Unitail ein Detektions-Datensatz, der das Produkt-Aussehen besser abbildet. Darüber hinaus stellt es ein galerieähnliches OCR-Datensatz bereit, der 1454 Produktkategorien, 30.000 Textbereiche und 21.000 Transkriptionen enthält, um eine robuste Lesung von Produkten zu ermöglichen und verbesserte Produktzuordnungen anzustoßen. Neben der Bewertung der Datensätze mit verschiedenen Stand-der-Technik-Methoden passen wir einen neuen Detektor für die Produkt-Detektion an und bieten eine einfache OCR-basierte Zuordnungslösung, die ihre Effektivität bestätigt.