HyperAIHyperAI
vor 11 Tagen

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li
Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung
Abstract

Die Referenzbildsegmentierung zielt darauf ab, die Vordergrundmasken der Objekte zu segmentieren, die gut zur in natürlicher Sprache formulierten Beschreibung passen. Bisherige Ansätze behandeln dieses Problem durch implizite Merkmalsinteraktion und -fusion zwischen visuellen und sprachlichen Modalitäten, scheitern jedoch häufig daran, informative Wörter der Beschreibung effektiv auszunutzen, um die Merkmale beider Modalitäten präzise auszurichten und das referenzierte Objekt korrekt zu identifizieren. In diesem Paper stellen wir einen Cross-Modal Progressive Comprehension (CMPC)-Modul und einen Text-Guided Feature Exchange (TGFE)-Modul vor, um diese anspruchsvolle Aufgabe effektiv zu lösen. Konkret nutzt der CMPC-Modul zunächst Entitäts- und Attributwörter, um alle potenziell relevanten Entitäten zu erkennen, die von der Beschreibung berücksichtigt werden könnten. Anschließend werden relationale Wörter eingesetzt, um die korrekte Entität durch multimodale Graphreasoning hervorzuheben und andere irrelevanten Entitäten zu unterdrücken. Zusätzlich zum CMPC-Modul nutzen wir einen einfachen, aber wirksamen TGFE-Modul, um die durch den Reasoning-Prozess gewonnenen multimodalen Merkmale aus verschiedenen Ebenen unter Anleitung der textuellen Information zu integrieren. Auf diese Weise können Merkmale aus mehreren Ebenen miteinander kommunizieren und auf Basis des sprachlichen Kontexts verfeinert werden. Wir führen umfangreiche Experimente auf vier gängigen Referenzsegmentierungs-Benchmarks durch und erreichen neue SOTA-Leistungen (state-of-the-art).

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung | Neueste Forschungsarbeiten | HyperAI