Google Landmarks Dataset v2 – Ein großskaliger Benchmark für die Instanz-Level-Erkennung und -Abfrage

Während Techniken zur Bildretrieval und Instanzerkennung rasch voranschreiten, besteht ein Bedarf an anspruchsvollen Datensätzen, um ihre Leistung präzise zu messen – gleichzeitig jedoch auch neue, für praktische Anwendungen relevante Herausforderungen zu bieten. Wir stellen den Google Landmarks Dataset v2 (GLDv2) vor, einen neuen Benchmark für großskalige, feinabgestufte Instanzerkennung und Bildretrieval im Bereich menschgemachter und natürlicher Sehenswürdigkeiten. GLDv2 ist bislang um ein Vielfaches der größte Datensatz dieser Art und umfasst über 5 Millionen Bilder sowie 200.000 eindeutige Instanzlabels. Der Testset besteht aus 118.000 Bildern mit Ground-Truth-Anmerkungen sowohl für die Retrieval- als auch für die Erkennungsaufgabe. Die Erstellung der Ground-Truth erforderte über 800 Stunden menschlicher Annotierungsarbeit. Unser neuer Datensatz weist mehrere herausfordernde Eigenschaften auf, die durch reale Anwendungen inspiriert sind und in früheren Datensätzen nicht berücksichtigt wurden: eine extrem langgezogene Klassenverteilung, einen erheblichen Anteil an außerhalb des Domänenbereichs liegenden Testbildern sowie eine hohe intra-klassische Variabilität. Die Datensätze stammen aus Wikimedia Commons, der weltweit größten community-generierten Sammlung von Sehenswürdigkeitsbildern. Wir liefern Baseline-Ergebnisse für beide Aufgaben – Erkennung und Retrieval – basierend auf modernsten Methoden sowie wettbewerbsfähige Ergebnisse aus einer öffentlichen Challenge. Zudem zeigen wir, dass der Datensatz gut für Transferlernen geeignet ist, indem wir nachweisen, dass mit ihm trainierte Bild-Embeddings eine wettbewerbsfähige Retrieval-Leistung auf unabhängigen Datensätzen erzielen. Die Datensatzbilder, Ground-Truth-Informationen sowie der Code zur Metrik-Bewertung sind unter https://github.com/cvdfoundation/google-landmark verfügbar.