HyperAIHyperAI

Command Palette

Search for a command to run...

PolyFormer: Referierende Bildsegmentierung als sequenzielle Polygongenerierung

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Zusammenfassung

In dieser Arbeit wird das Problem der referenziellen Bildsegmentierung statt der direkten Vorhersage pixelgenauer Segmentierungsmasken als sequenzielle Polygongenerierung formuliert, wobei die vorhergesagten Polygone anschließend in Segmentierungsmasken umgewandelt werden können. Dies wird durch einen neuen sequenz-zu-Sequenz-Framework namens Polygon Transformer (PolyFormer) ermöglicht, der eine Sequenz von Bildpatches und Textabfragetokens als Eingabe erhält und autoregressiv eine Sequenz von Polygonknotenpunkten ausgibt. Zur präziseren geometrischen Lokalisierung stellen wir einen regressive Dekoder vor, der die exakten Gleitkommakoordinaten direkt vorhersagt, ohne jegliche Quantisierungsfehler bei den Koordinaten. In den Experimenten übertrifft PolyFormer die vorhergehenden State-of-the-Art-Methoden deutlich, beispielsweise um 5,40 % und 4,52 % absolute Verbesserung auf den anspruchsvollen Datensätzen RefCOCO+ und RefCOCOg. Zudem zeigt der Ansatz eine starke Verallgemeinerungsfähigkeit, wenn er ohne Feintuning auf die referenzielle Videosegmentierung evaluiert wird, wobei er beispielsweise eine konkurrenzfähige J&F-Score von 61,5 % auf dem Ref-DAVIS17-Datensatz erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp