HyperAIHyperAI
vor 2 Monaten

Mehrfachvisuelles Ankerlegung mit grob-zu-feinen Konsistenzbedingungen

Dai, Ming ; Li, Jian ; Zhuang, Jiedong ; Zhang, Xian ; Yang, Wankou
Mehrfachvisuelles Ankerlegung mit grob-zu-feinen Konsistenzbedingungen
Abstract

Die mehrfache visuelle Verortung (Multi-task visual grounding) beinhaltet die gleichzeitige Durchführung von Lokalisierung und Segmentierung in Bildern basierend auf textuellen Ausdrücken. Die meisten fortschrittlichen Methoden konzentrieren sich hauptsächlich auf transformerbasierte multimodale Fusion, wobei das Ziel darin besteht, robuste multimodale Darstellungen zu extrahieren. Dennoch sind Unsicherheiten bei der Interpretation von referenzierenden Ausdrücken (Referring Expression Comprehension, REC) und der Segmentierung referenzierender Bilder (Referring Image Segmentation, RIS) fehleranfällig, was zu Inkonsistenzen zwischen den Vorhersagen verschiedener Aufgaben führt. Zudem trägt ein unzureichendes multimodales Verständnis direkt zur verzerrten Wahrnehmung des Ziels bei. Um diese Herausforderungen zu bewältigen, schlagen wir eine architektur für visuelle Verortung vor, die grobe bis feine Konsistenzbedingungen (\textit{Coarse-to-fine Consistency Constraints Visual Grounding}, $\text{C}^3\text{VG}$) integriert. Diese Architektur vereint implizite und explizite Modellierungsmethoden innerhalb eines zweistufigen Frameworks.Zunächst werden Abfrage- und Pixel-Decodier verwendet, um vorläufige Detektions- und Segmentierungsresultate zu erzeugen. Dieser Prozess wird als die Phase der Grobskaligen Semantischen Wahrnehmung (Rough Semantic Perception, RSP) bezeichnet. Anschließend werden diese groben Vorhersagen durch das vorgeschlagene Mask-guided Interaction Modul (MIM) und einen neuen expliziten bidirektionellen Konsistenzbedingungsverlust verfeinert, um konsistente Darstellungen über alle Aufgaben hinweg sicherzustellen. Diese Phase nennen wir die Verfeinerung der Konsistenten Interaktion (Refined Consistency Interaction, RCI). Darüber hinaus nutzen wir vortrainierte Modelle basierend auf visuell-linguistischen Fusionsdarstellungen, um die Herausforderung des unzureichenden multimodalen Verständnisses anzugehen.Empirische Evaluierungen anhand der Datensätze RefCOCO, RefCOCO+ und RefCOCOg zeigen die Effektivität und Stabilität von $\text{C}^3\text{VG}$. Es übertreffen die aktuellen Stand-von-der-Kunst-Methoden für REC und RIS erheblich. Der Quellcode und das Modell werden unter \url{https://github.com/Dmmm1997/C3VG} verfügbar sein.