COCO-Stuff: Objekte und Flächenklassen im Kontext

Semantische Klassen können entweder Dinge (Objekte mit einer gut definierten Form, z.B. Auto, Person) oder Stoff (formlose Hintergrundbereiche, z.B. Gras, Himmel) sein. Während viele Klassifikations- und Detektionsarbeiten sich auf Ding-Klassen konzentrieren, wurde weniger Aufmerksamkeit den Stoff-Klassen gewidmet. Dennoch sind Stoff-Klassen wichtig, da sie wichtige Aspekte eines Bildes erklären können, einschließlich: (1) Szene-Typ; (2) welche Ding-Klassen wahrscheinlich vorhanden sind und ihre Position (durch kontextuelle Schlussfolgerung); (3) physikalische Eigenschaften, Materialarten und geometrische Merkmale der Szene. Um Dinge und Stoff im Kontext zu verstehen, führen wir COCO-Stuff ein, das alle 164.000 Bilder des COCO 2017-Datensatzes mit pixelgenauen Annotationen für 91 Stoff-Klassen erweitert. Wir präsentieren ein effizientes Annotierungsprotokoll für Stoff basierend auf Superpixeln, das die originalen Ding-Annotationen nutzt. Wir quantifizieren den Trade-off zwischen Geschwindigkeit und Qualität unseres Protokolls und untersuchen das Verhältnis zwischen Annotierungszeit und Randskomplexität. Darüber hinaus nutzen wir COCO-Stuff zur Analyse von: (a) der Bedeutung von Stoff- und Ding-Klassen hinsichtlich ihrer Flächenbedeckung und wie häufig sie in Bildunterschriften erwähnt werden; (b) den räumlichen Beziehungen zwischen Stoff und Dingen, wobei wir die reichen kontextuellen Beziehungen hervorheben, die unseren Datensatz einzigartig machen; (c) der Leistungsfähigkeit einer modernen semantischen Segmentierungsmethode bei Stoff- und Ding-Klassen sowie ob Stoff einfacher zu segmentieren ist als Dinge.