HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentierung aus natürlichsprachlichen Ausdrücken

Ronghang Hu; Marcus Rohrbach; Trevor Darrell

Zusammenfassung

In dieser Arbeit adressieren wir das neue Problem der Bildsegmentierung auf Basis einer natürlichsprachlichen Ausdrucksweise. Dies unterscheidet sich von der traditionellen semantischen Segmentierung über eine vordefinierte Menge semantischer Klassen, da beispielsweise der Ausdruck "zwei Männer sitzen auf der rechten Bank" nur die beiden Personen auf der rechten Bank segmentiert und niemanden, der steht oder auf einer anderen Bank sitzt. Frühere Ansätze, die für diese Aufgabe geeignet waren, waren entweder auf einen festen Satz von Kategorien oder rechteckige Regionen beschränkt. Um eine pixelgenaue Segmentierung für den natürlichsprachlichen Ausdruck zu erzeugen, schlagen wir ein end-to-end trainierbares rekurrentes und konvolutionsbasiertes Netzwerkmodell vor, das gemeinsam visuelle und linguistische Informationen verarbeitet. In unserem Modell wird ein rekurrentes LSTM-Netzwerk verwendet, um den referentiellen Ausdruck in eine Vektordarstellung zu kodieren, während ein vollständig konvolutionsbasiertes Netzwerk verwendet wird, um aus dem Bild eine räumliche Merkmalskarte zu extrahieren und eine räumliche Antwortkarte für das Zielobjekt zu generieren. Anhand eines Benchmark-Datensatzes zeigen wir, dass unser Modell qualitativ hochwertige Segmentierungsresultate aus dem natürlichsprachlichen Ausdruck erzeugen kann und dabei die Baseline-Methoden deutlich übertreffen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp