HyperAIHyperAI

Command Palette

Search for a command to run...

Referenzausdruck-Objektsegmentierung mit captionbewusster Konsistenz

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Zusammenfassung

Bezugsausdrücke sind natürliche Sprachbeschreibungen, die ein bestimmtes Objekt in einer Szene identifizieren und in unseren alltäglichen Gesprächen weit verbreitet sind. In dieser Arbeit konzentrieren wir uns auf die Segmentierung des in einem Bild durch einen Bezugsausdruck spezifizierten Objekts. Dazu schlagen wir ein end-to-end trainierbares Verständnisnetzwerk vor, das aus Sprach- und visuellen Encodern besteht, um Merkmalsdarstellungen aus beiden Domänen zu extrahieren. Wir führen räumlich bewusste dynamische Filter ein, um Wissen von der Text- zur Bilddomäne zu übertragen und die räumliche Information des spezifizierten Objekts effektiv zu erfassen. Um die Kommunikation zwischen der Sprach- und der visuellen Komponente weiter zu verbessern, verwenden wir ein Caption-Generierungsnetzwerk, das gemeinsame Merkmale beider Domänen als Eingabe nutzt und beide Darstellungen durch eine Konsistenzbedingung verbessert, die sicherstellt, dass der generierte Satz dem gegebenen Bezugsausdruck ähnlich ist. Wir evaluieren den vorgeschlagenen Ansatz an zwei Datensätzen für Bezugsausdrücke und zeigen, dass unsere Methode gegenüber den aktuell besten Algorithmen konkurrenzfähig ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Referenzausdruck-Objektsegmentierung mit captionbewusster Konsistenz | Paper | HyperAI