HyperAIHyperAI
vor 2 Monaten

Locate then Segment: Eine starke Pipeline für die referenzbasierte Bildsegmentierung

Jing, Ya ; Kong, Tao ; Wang, Wei ; Wang, Liang ; Li, Lei ; Tan, Tieniu
Locate then Segment: Eine starke Pipeline für die referenzbasierte Bildsegmentierung
Abstract

Die referenzbasierte Bildsegmentierung zielt darauf ab, die von einer natürlichsprachlichen Ausdrucksweise bezeichneten Objekte zu segmentieren. Vorherige Methoden konzentrierten sich in der Regel auf das Design eines impliziten und rekurrenten Merkmalsinteraktionsmechanismus, um visuelle und linguistische Merkmale zu fusionieren und das endgültige Segmentierungs-Mask direkt zu generieren, ohne die Lokalisationsinformation der bezeichneten Instanzen explizit zu modellieren. Um diese Probleme anzugehen, betrachten wir diese Aufgabe aus einer anderen Perspektive durch den Einsatz eines "Locate-Then-Segment" (LTS)-Schemas. Bei einem natürlichsprachlichen Ausdruck fokussieren sich Menschen normalerweise zunächst auf die entsprechenden Zielbildbereiche, bevor sie basierend auf dem Kontext eine detaillierte Segmentierungs-Mask des Objekts erzeugen. Das LTS extrahiert und fusioniert zunächst sowohl visuelle als auch textuelle Merkmale, um eine multimodale Darstellung zu erhalten. Anschließend wird eine multimodale Interaktion auf den visuellen und textuellen Merkmalen angewendet, um das bezeichnete Objekt unter Verwendung von Positionsvorwissen zu lokalisieren. Schließlich generiert ein leistungsfähiges Segmentierungsnetzwerk das Segmentierungs-Ergebnis. Unser LTS ist einfach, aber überraschend effektiv. Auf drei gängigen Benchmark-Datensätzen übertrifft das LTS alle bisherigen Stand-of-the-Art-Methoden deutlich (z.B., +3,2% auf RefCOCO+ und +3,4% auf RefCOCOg). Zudem ist unser Modell dank der expliziten Lokalisierung des Objekts interpretabler, was auch durch Visualisierungsexperimente bestätigt wurde. Wir glauben, dass dieses Framework vielversprechend ist und als starke Baseline für die referenzbasierte Bildsegmentierung dienen kann.

Locate then Segment: Eine starke Pipeline für die referenzbasierte Bildsegmentierung | Neueste Forschungsarbeiten | HyperAI