Multimodale Bezugssegmentierung: Eine Übersicht

Multimodale Bezugsssegmentierung zielt darauf ab, Zielobjekte in visuellen Szenen – wie Bildern, Videos und 3D-Szenen – anhand von Bezugsausdrücken in Text- oder Audiosprache zu segmentieren. Diese Aufgabe spielt eine entscheidende Rolle bei praktischen Anwendungen, die eine präzise Objektwahrnehmung auf Basis von Benutzeranweisungen erfordern. In den vergangenen zehn Jahren hat sie in der multimodalen Forschungsgemeinschaft erhebliche Aufmerksamkeit erhalten, getrieben durch Fortschritte in der Entwicklung von Faltungsneuronalen Netzwerken, Transformers und großen Sprachmodellen, die alle die multimodale Wahrnehmungsfähigkeit erheblich verbessert haben. In diesem Artikel präsentieren wir eine umfassende Übersicht über die multimodale Bezugsssegmentierung. Zunächst führen wir den Hintergrund dieses Forschungsfeldes ein, einschließlich der Problemdefinitionen und der häufig verwendeten Datensätze. Anschließend fassen wir eine einheitliche Meta-Architektur für die Bezugsssegmentierung zusammen und besprechen repräsentative Methoden für drei zentrale visuelle Szenarien: Bilder, Videos und 3D-Szenen. Wir diskutieren zudem Verfahren zur Generalisierten Bezugsausdrucksanalyse (GREx), um den Herausforderungen der Komplexität realer Umgebungen zu begegnen, sowie verwandte Aufgaben und praktische Anwendungen. Ausführliche Leistungsvergleiche auf Standardbenchmarks werden ebenfalls vorgestellt. Wir halten die Entwicklung relevanter Arbeiten kontinuierlich auf dem Laufenden unter: https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.