Umfassende multimodale Interaktionen für die Bezugsbildsegmentierung

Wir untersuchen die Bezugsbildsegmentierung (Referring Image Segmentation, RIS), bei der eine Segmentierungskarte erzeugt wird, die einer natürlichen Sprachbeschreibung entspricht. Die effiziente Behandlung von RIS erfordert die Berücksichtigung der Wechselwirkungen zwischen den visuellen und sprachlichen Modalitäten sowie der Wechselwirkungen innerhalb jeder Modality. Bestehende Ansätze sind durch ihre Beschränkungen limitiert, da sie entweder verschiedene Arten von Wechselwirkungen sequenziell berechnen (was zu Fehlerfortpflanzung führt) oder die intramodalen Wechselwirkungen ignorieren. Wir überwinden diese Einschränkung, indem wir alle drei Arten von Wechselwirkungen gleichzeitig durch ein synchrones multimodales Fusionsmodul (Synchronous Multi-Modal Fusion Module, SFM) durchführen. Darüber hinaus schlagen wir ein neuartiges hierarchisches, cross-modales Aggregationsmodul (Hierarchical Cross-Modal Aggregation Module, HCAM) vor, bei dem sprachliche Merkmale den Austausch kontextueller Informationen über die visuelle Hierarchie hinweg unterstützen. Wir präsentieren umfassende Ablationsstudien und bestätigen die Leistungsfähigkeit unseres Ansatzes an vier Benchmark-Datensätzen, wobei wir erhebliche Verbesserungen gegenüber den bestehenden State-of-the-Art-(SOTA)-Methoden erzielen.