Command Palette
Search for a command to run...
Durchsichtige-Text-Gruppierung für die Bezugsbildsegmentierung
Durchsichtige-Text-Gruppierung für die Bezugsbildsegmentierung
Tyng-Luh Liu Hwann-Tzong Chen Yi-Chen Lo Songhao Jia Ding-Jie Chen
Zusammenfassung
Motiviert durch herkömmliche Gruppierungstechniken für die Bildsegmentierung entwickeln wir deren DNN-Entsprechung, um die referierende Variante zu bewältigen. Der vorgeschlagene Ansatz basiert auf einem convolutional-recurrenten neuronalen Netzwerk (ConvRNN), das iterativ eine top-down-Verarbeitung von bottom-up-Segmentierungshinweisen durchführt. Gegeben eine natürliche Sprachreferenz erlernt unsere Methode, die Relevanz für jeden Pixel vorherzusagen, und leitet eine See-through-Text Embedding Pixelwise (STEP)-Heatmap ab, die Segmentierungshinweise auf Pixel-Ebene über die gelernte visuell-textuelle Ko-Embedding-Struktur offenlegt. Das ConvRNN führt eine top-down-Näherung durch, indem es die STEP-Heatmap in eine verfeinerte Form überführt, wobei die Verbesserung durch das Training des Netzwerks mit einer Klassifikationsverlustfunktion auf Basis der Ground-Truth erwartet wird. Mit der verfeinerten Heatmap aktualisieren wir die textuelle Repräsentation der Referenzausdrucks durch erneute Bewertung seiner Aufmerksamkeitsverteilung und berechnen anschließend eine neue STEP-Heatmap als Eingabe für das nächste ConvRNN-Iterationsstadium. Durch diese kooperative Lernstrategie kann das Framework schrittweise und gleichzeitig die gewünschte referierende Segmentierung sowie eine plausibel verteilte Aufmerksamkeit über den referierenden Satz erzeugen. Unser Ansatz ist allgemein gültig und setzt beispielsweise nicht auf Ergebnisse von Objektdetektionen anderer DNN-Modelle, während er den Stand der Technik in allen vier untersuchten Datensätzen erreicht.