HyperAIHyperAI

Command Palette

Search for a command to run...

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

Die Referenzbildsegmentierung zielt darauf ab, die Vordergrundmasken der Objekte zu segmentieren, die gut zur in natürlicher Sprache formulierten Beschreibung passen. Bisherige Ansätze behandeln dieses Problem durch implizite Merkmalsinteraktion und -fusion zwischen visuellen und sprachlichen Modalitäten, scheitern jedoch häufig daran, informative Wörter der Beschreibung effektiv auszunutzen, um die Merkmale beider Modalitäten präzise auszurichten und das referenzierte Objekt korrekt zu identifizieren. In diesem Paper stellen wir einen Cross-Modal Progressive Comprehension (CMPC)-Modul und einen Text-Guided Feature Exchange (TGFE)-Modul vor, um diese anspruchsvolle Aufgabe effektiv zu lösen. Konkret nutzt der CMPC-Modul zunächst Entitäts- und Attributwörter, um alle potenziell relevanten Entitäten zu erkennen, die von der Beschreibung berücksichtigt werden könnten. Anschließend werden relationale Wörter eingesetzt, um die korrekte Entität durch multimodale Graphreasoning hervorzuheben und andere irrelevanten Entitäten zu unterdrücken. Zusätzlich zum CMPC-Modul nutzen wir einen einfachen, aber wirksamen TGFE-Modul, um die durch den Reasoning-Prozess gewonnenen multimodalen Merkmale aus verschiedenen Ebenen unter Anleitung der textuellen Information zu integrieren. Auf diese Weise können Merkmale aus mehreren Ebenen miteinander kommunizieren und auf Basis des sprachlichen Kontexts verfeinert werden. Wir führen umfangreiche Experimente auf vier gängigen Referenzsegmentierungs-Benchmarks durch und erreichen neue SOTA-Leistungen (state-of-the-art).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp