HyperAIHyperAI
vor 11 Tagen

Cross-Modal Progressive Comprehension für Referring Segmentation

Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li
Cross-Modal Progressive Comprehension für Referring Segmentation
Abstract

Gegeben ein natürlichsprachliches Ausdruck und ein Bild oder Video zielt die Referenzsegmentierung darauf ab, maskenbasierte, pixelgenaue Regionen der durch den Subjektteil des Ausdrucks beschriebenen Entitäten zu generieren. Frühere Ansätze behandeln dieses Problem durch implizite Merkmalsinteraktion und -fusion zwischen visuellen und sprachlichen Modalitäten in einer einstufigen Weise. Allerdings lösen Menschen das Referenzproblem tendenziell progressiv, basierend auf informativen Wörtern im Ausdruck, d. h., zunächst grob potenzielle Entitäten zu lokalisieren und anschließend die Zielentität von anderen abzugrenzen. In diesem Artikel schlagen wir ein Cross-Modal Progressive Comprehension (CMPC)-Schema vor, um menschliches Verhalten effektiv nachzuahmen. Dieses wird als CMPC-I-Modul (für Bilder) und CMPC-V-Modul (für Videos) implementiert, um die Leistung von Referenzbild- und Referenzvideo-Segmentierungsmodellen zu verbessern. Für Bilddaten verwendet das CMPC-I-Modul zunächst Entitäts- und Attributwörter, um alle potenziell relevanten Entitäten zu erkennen, die vom Ausdruck gemeint sein könnten. Anschließend werden relationale Wörter eingesetzt, um die Zielentität durch räumliche Graph-Reasoning-Verfahren hervorzuheben und andere irrelevante Entitäten zu unterdrücken. Für Videodaten erweitert das CMPC-V-Modul diese Vorgehensweise durch die Nutzung von Aktionswörtern auf Basis des CMPC-I, um die korrekte Entität, die mit den Aktionshinweisen übereinstimmt, mittels zeitlicher Graph-Reasoning-Verfahren zu betonen. Zusätzlich zu CMPC führen wir ein einfaches, jedoch effektives Text-gesteuertes Merkmalsaustausch-Modul (TGFE) ein, das die durch den Text geleiteten multimodalen Merkmale verschiedener Ebenen im visuellen Backbone integriert. Auf diese Weise können mehrstufige Merkmale miteinander kommunizieren und basierend auf dem sprachlichen Kontext gegenseitig verfeinert werden. Die Kombination von CMPC-I oder CMPC-V mit TGFE bildet unsere Referenzbild- bzw. Referenzvideo-Segmentierungs-Frameworks, die jeweils neue SOTA-Leistungen auf vier Referenzbild-Segmentierungs-Benchmarks und drei Referenzvideo-Segmentierungs-Benchmarks erzielen.

Cross-Modal Progressive Comprehension für Referring Segmentation | Neueste Forschungsarbeiten | HyperAI