HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Bezugssegmentierung: Eine Übersicht

Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang

Zusammenfassung

Multimodale Bezugsssegmentierung zielt darauf ab, Zielobjekte in visuellen Szenen – wie Bildern, Videos und 3D-Szenen – anhand von Bezugsausdrücken in Text- oder Audiosprache zu segmentieren. Diese Aufgabe spielt eine entscheidende Rolle bei praktischen Anwendungen, die eine präzise Objektwahrnehmung auf Basis von Benutzeranweisungen erfordern. In den vergangenen zehn Jahren hat sie in der multimodalen Forschungsgemeinschaft erhebliche Aufmerksamkeit erhalten, getrieben durch Fortschritte in der Entwicklung von Faltungsneuronalen Netzwerken, Transformers und großen Sprachmodellen, die alle die multimodale Wahrnehmungsfähigkeit erheblich verbessert haben. In diesem Artikel präsentieren wir eine umfassende Übersicht über die multimodale Bezugsssegmentierung. Zunächst führen wir den Hintergrund dieses Forschungsfeldes ein, einschließlich der Problemdefinitionen und der häufig verwendeten Datensätze. Anschließend fassen wir eine einheitliche Meta-Architektur für die Bezugsssegmentierung zusammen und besprechen repräsentative Methoden für drei zentrale visuelle Szenarien: Bilder, Videos und 3D-Szenen. Wir diskutieren zudem Verfahren zur Generalisierten Bezugsausdrucksanalyse (GREx), um den Herausforderungen der Komplexität realer Umgebungen zu begegnen, sowie verwandte Aufgaben und praktische Anwendungen. Ausführliche Leistungsvergleiche auf Standardbenchmarks werden ebenfalls vorgestellt. Wir halten die Entwicklung relevanter Arbeiten kontinuierlich auf dem Laufenden unter: https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodale Bezugssegmentierung: Eine Übersicht | Paper | HyperAI