HyperAIHyperAI

Command Palette

Search for a command to run...

Umfassende multimodale Interaktionen für die Bezugsbildsegmentierung

Kanishk Jain Vineet Gandhi

Zusammenfassung

Wir untersuchen die Bezugsbildsegmentierung (Referring Image Segmentation, RIS), bei der eine Segmentierungskarte erzeugt wird, die einer natürlichen Sprachbeschreibung entspricht. Die effiziente Behandlung von RIS erfordert die Berücksichtigung der Wechselwirkungen zwischen den visuellen und sprachlichen Modalitäten sowie der Wechselwirkungen innerhalb jeder Modality. Bestehende Ansätze sind durch ihre Beschränkungen limitiert, da sie entweder verschiedene Arten von Wechselwirkungen sequenziell berechnen (was zu Fehlerfortpflanzung führt) oder die intramodalen Wechselwirkungen ignorieren. Wir überwinden diese Einschränkung, indem wir alle drei Arten von Wechselwirkungen gleichzeitig durch ein synchrones multimodales Fusionsmodul (Synchronous Multi-Modal Fusion Module, SFM) durchführen. Darüber hinaus schlagen wir ein neuartiges hierarchisches, cross-modales Aggregationsmodul (Hierarchical Cross-Modal Aggregation Module, HCAM) vor, bei dem sprachliche Merkmale den Austausch kontextueller Informationen über die visuelle Hierarchie hinweg unterstützen. Wir präsentieren umfassende Ablationsstudien und bestätigen die Leistungsfähigkeit unseres Ansatzes an vier Benchmark-Datensätzen, wobei wir erhebliche Verbesserungen gegenüber den bestehenden State-of-the-Art-(SOTA)-Methoden erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp