Segmentierung aus natürlichsprachlichen Ausdrücken

In dieser Arbeit adressieren wir das neue Problem der Bildsegmentierung auf Basis einer natürlichsprachlichen Ausdrucksweise. Dies unterscheidet sich von der traditionellen semantischen Segmentierung über eine vordefinierte Menge semantischer Klassen, da beispielsweise der Ausdruck "zwei Männer sitzen auf der rechten Bank" nur die beiden Personen auf der rechten Bank segmentiert und niemanden, der steht oder auf einer anderen Bank sitzt. Frühere Ansätze, die für diese Aufgabe geeignet waren, waren entweder auf einen festen Satz von Kategorien oder rechteckige Regionen beschränkt. Um eine pixelgenaue Segmentierung für den natürlichsprachlichen Ausdruck zu erzeugen, schlagen wir ein end-to-end trainierbares rekurrentes und konvolutionsbasiertes Netzwerkmodell vor, das gemeinsam visuelle und linguistische Informationen verarbeitet. In unserem Modell wird ein rekurrentes LSTM-Netzwerk verwendet, um den referentiellen Ausdruck in eine Vektordarstellung zu kodieren, während ein vollständig konvolutionsbasiertes Netzwerk verwendet wird, um aus dem Bild eine räumliche Merkmalskarte zu extrahieren und eine räumliche Antwortkarte für das Zielobjekt zu generieren. Anhand eines Benchmark-Datensatzes zeigen wir, dass unser Modell qualitativ hochwertige Segmentierungsresultate aus dem natürlichsprachlichen Ausdruck erzeugen kann und dabei die Baseline-Methoden deutlich übertreffen kann.