HyperAIHyperAI

Command Palette

Search for a command to run...

Locate then Segment: Eine starke Pipeline für die referenzbasierte Bildsegmentierung

Ya Jing Tao Kong Wei Wang Liang Wang Lei Li Tieniu Tan

Zusammenfassung

Die referenzbasierte Bildsegmentierung zielt darauf ab, die von einer natürlichsprachlichen Ausdrucksweise bezeichneten Objekte zu segmentieren. Vorherige Methoden konzentrierten sich in der Regel auf das Design eines impliziten und rekurrenten Merkmalsinteraktionsmechanismus, um visuelle und linguistische Merkmale zu fusionieren und das endgültige Segmentierungs-Mask direkt zu generieren, ohne die Lokalisationsinformation der bezeichneten Instanzen explizit zu modellieren. Um diese Probleme anzugehen, betrachten wir diese Aufgabe aus einer anderen Perspektive durch den Einsatz eines "Locate-Then-Segment" (LTS)-Schemas. Bei einem natürlichsprachlichen Ausdruck fokussieren sich Menschen normalerweise zunächst auf die entsprechenden Zielbildbereiche, bevor sie basierend auf dem Kontext eine detaillierte Segmentierungs-Mask des Objekts erzeugen. Das LTS extrahiert und fusioniert zunächst sowohl visuelle als auch textuelle Merkmale, um eine multimodale Darstellung zu erhalten. Anschließend wird eine multimodale Interaktion auf den visuellen und textuellen Merkmalen angewendet, um das bezeichnete Objekt unter Verwendung von Positionsvorwissen zu lokalisieren. Schließlich generiert ein leistungsfähiges Segmentierungsnetzwerk das Segmentierungs-Ergebnis. Unser LTS ist einfach, aber überraschend effektiv. Auf drei gängigen Benchmark-Datensätzen übertrifft das LTS alle bisherigen Stand-of-the-Art-Methoden deutlich (z.B., +3,2% auf RefCOCO+ und +3,4% auf RefCOCOg). Zudem ist unser Modell dank der expliziten Lokalisierung des Objekts interpretabler, was auch durch Visualisierungsexperimente bestätigt wurde. Wir glauben, dass dieses Framework vielversprechend ist und als starke Baseline für die referenzbasierte Bildsegmentierung dienen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp