vor 6 Monaten

Zusammenfassung

Die Referenzbildsegmentierung zielt darauf ab, die Vordergrundmasken der Objekte zu segmentieren, die gut zur in natürlicher Sprache formulierten Beschreibung passen. Bisherige Ansätze behandeln dieses Problem durch implizite Merkmalsinteraktion und -fusion zwischen visuellen und sprachlichen Modalitäten, scheitern jedoch häufig daran, informative Wörter der Beschreibung effektiv auszunutzen, um die Merkmale beider Modalitäten präzise auszurichten und das referenzierte Objekt korrekt zu identifizieren. In diesem Paper stellen wir einen Cross-Modal Progressive Comprehension (CMPC)-Modul und einen Text-Guided Feature Exchange (TGFE)-Modul vor, um diese anspruchsvolle Aufgabe effektiv zu lösen. Konkret nutzt der CMPC-Modul zunächst Entitäts- und Attributwörter, um alle potenziell relevanten Entitäten zu erkennen, die von der Beschreibung berücksichtigt werden könnten. Anschließend werden relationale Wörter eingesetzt, um die korrekte Entität durch multimodale Graphreasoning hervorzuheben und andere irrelevanten Entitäten zu unterdrücken. Zusätzlich zum CMPC-Modul nutzen wir einen einfachen, aber wirksamen TGFE-Modul, um die durch den Reasoning-Prozess gewonnenen multimodalen Merkmale aus verschiedenen Ebenen unter Anleitung der textuellen Information zu integrieren. Auf diese Weise können Merkmale aus mehreren Ebenen miteinander kommunizieren und auf Basis des sprachlichen Kontexts verfeinert werden. Wir führen umfangreiche Experimente auf vier gängigen Referenzsegmentierungs-Benchmarks durch und erreichen neue SOTA-Leistungen (state-of-the-art).

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Semantische Segmentierung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Semantische Segmentierung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Referenzbasierte Bildsegmentierung durch grenzmodale progressivere Verständnisbildung

Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Bo Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters