PhraseCut: Sprachbasierte Bildsegmentierung in der Wildnis

Wir betrachten das Problem der Segmentierung von Bildregionen anhand eines natürlichen Sprachausdrucks und untersuchen es anhand eines neuartigen Datensatzes mit 77.262 Bildern und 345.486 Paaren aus Ausdruck und Region. Unser Datensatz wurde auf Basis des Visual Genome-Datensatzes erstellt und nutzt die vorhandenen Annotationen, um eine anspruchsvolle Sammlung von Bezugsausdrücken zu generieren, für die die entsprechenden Regionen manuell annotiert wurden. Die Ausdrücke in unserem Datensatz beziehen sich auf mehrere Regionen und beschreiben eine große Anzahl von Objekt- und Stuff-Kategorien sowie deren Attribute wie Farbe, Form, Teile und Beziehungen zu anderen Entitäten im Bild. Unsere Experimente zeigen, dass die Skalierung und Vielfalt der Konzepte in unserem Datensatz erhebliche Herausforderungen für die derzeitigen State-of-the-Art-Methoden darstellen. Wir behandeln systematisch die Long-Tail-Verteilung dieser Konzepte und präsentieren einen modularen Ansatz zur Kombination von Kategorien-, Attribut- und Beziehungshinweisen, der bestehende Ansätze übertrifft.