HyperAIHyperAI
vor 11 Tagen

PolyFormer: Referierende Bildsegmentierung als sequenzielle Polygongenerierung

Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha
PolyFormer: Referierende Bildsegmentierung als sequenzielle Polygongenerierung
Abstract

In dieser Arbeit wird das Problem der referenziellen Bildsegmentierung statt der direkten Vorhersage pixelgenauer Segmentierungsmasken als sequenzielle Polygongenerierung formuliert, wobei die vorhergesagten Polygone anschließend in Segmentierungsmasken umgewandelt werden können. Dies wird durch einen neuen sequenz-zu-Sequenz-Framework namens Polygon Transformer (PolyFormer) ermöglicht, der eine Sequenz von Bildpatches und Textabfragetokens als Eingabe erhält und autoregressiv eine Sequenz von Polygonknotenpunkten ausgibt. Zur präziseren geometrischen Lokalisierung stellen wir einen regressive Dekoder vor, der die exakten Gleitkommakoordinaten direkt vorhersagt, ohne jegliche Quantisierungsfehler bei den Koordinaten. In den Experimenten übertrifft PolyFormer die vorhergehenden State-of-the-Art-Methoden deutlich, beispielsweise um 5,40 % und 4,52 % absolute Verbesserung auf den anspruchsvollen Datensätzen RefCOCO+ und RefCOCOg. Zudem zeigt der Ansatz eine starke Verallgemeinerungsfähigkeit, wenn er ohne Feintuning auf die referenzielle Videosegmentierung evaluiert wird, wobei er beispielsweise eine konkurrenzfähige J&F-Score von 61,5 % auf dem Ref-DAVIS17-Datensatz erreicht.

PolyFormer: Referierende Bildsegmentierung als sequenzielle Polygongenerierung | Neueste Forschungsarbeiten | HyperAI