HyperAIHyperAI
vor 16 Tagen

Referenzausdruck-Objektsegmentierung mit captionbewusster Konsistenz

Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin, Ming-Hsuan Yang
Referenzausdruck-Objektsegmentierung mit captionbewusster Konsistenz
Abstract

Bezugsausdrücke sind natürliche Sprachbeschreibungen, die ein bestimmtes Objekt in einer Szene identifizieren und in unseren alltäglichen Gesprächen weit verbreitet sind. In dieser Arbeit konzentrieren wir uns auf die Segmentierung des in einem Bild durch einen Bezugsausdruck spezifizierten Objekts. Dazu schlagen wir ein end-to-end trainierbares Verständnisnetzwerk vor, das aus Sprach- und visuellen Encodern besteht, um Merkmalsdarstellungen aus beiden Domänen zu extrahieren. Wir führen räumlich bewusste dynamische Filter ein, um Wissen von der Text- zur Bilddomäne zu übertragen und die räumliche Information des spezifizierten Objekts effektiv zu erfassen. Um die Kommunikation zwischen der Sprach- und der visuellen Komponente weiter zu verbessern, verwenden wir ein Caption-Generierungsnetzwerk, das gemeinsame Merkmale beider Domänen als Eingabe nutzt und beide Darstellungen durch eine Konsistenzbedingung verbessert, die sicherstellt, dass der generierte Satz dem gegebenen Bezugsausdruck ähnlich ist. Wir evaluieren den vorgeschlagenen Ansatz an zwei Datensätzen für Bezugsausdrücke und zeigen, dass unsere Methode gegenüber den aktuell besten Algorithmen konkurrenzfähig ist.

Referenzausdruck-Objektsegmentierung mit captionbewusster Konsistenz | Neueste Forschungsarbeiten | HyperAI