vor 8 Monaten

Zusammenfassung

Die Offen-vokabular-Bildsegmentierung (open-vocabulary image segmentation) strebt danach, ein Bild in semantische Regionen aufzuteilen, die sich anhand beliebiger Textbeschreibungen definieren lassen. Komplexe visuelle Szenen können jedoch natürlicherweise in einfachere Teile zerlegt und auf verschiedenen Granularitätsebenen abstrahiert werden, was zu einer inhärenten Segmentierungsmehrdeutigkeit führt. Im Gegensatz zu bestehenden Methoden, die diese Mehrdeutigkeit in der Regel umgehen und als externen Faktor behandeln, integriert unser Ansatz aktiv eine hierarchische Darstellung, die verschiedene semantische Ebenen umfasst, in den Lernprozess. Wir schlagen einen getrennten Text-Bild-Fusionsmechanismus sowie Lernmodule für "Dinge" (things) und "Materialien" (stuff) vor. Zudem untersuchen wir systematisch die Unterschiede zwischen den textuellen und visuellen Merkmalen dieser Kategorien. Unser daraus resultierendes Modell, das HIPIE genannt wird, löst hierarchische, offen-vokabulare und universelle Segmentierungsaufgaben innerhalb eines einheitlichen Rahmens. An mehr als 40 Datensätzen wie ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW und SeginW getestet, erreicht HIPIE den aktuellen Stand der Technik bei verschiedenen Ebenen der Bildverarbeitung, einschließlich der semantischen Ebene (z.B. semantische Segmentierung), der Instanz-Ebene (z.B. panoptische/referenzbezogene Segmentierung und Objekterkennung) sowie der Teil-Ebene (z.B. Teil-/Unterteil-Segmentierung). Unser Code ist unter https://github.com/berkeley-hipie/HIPIE veröffentlicht.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Hierarchische Offene-Vokabular-Universelle Bildsegmentierung

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hierarchische Offene-Vokabular-Universelle Bildsegmentierung

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hierarchische Offene-Vokabular-Universelle Bildsegmentierung

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters