vor 8 Monaten

Zusammenfassung

Gruppierung und Erkennung sind wichtige Bestandteile der visuellen Szenerkennung, beispielsweise für Objekterkennung und semantische Segmentierung. Mit end-to-end tiefen Lernsystemen erfolgt die Gruppierung von Bildbereichen in der Regel implizit durch top-down Überwachung mittels Pixel-Level-Erkennungslabels. In diesem Artikel schlagen wir vor, den Gruppierungsmechanismus wieder in tiefe Netzwerke zu integrieren, was es ermöglicht, dass semantische Segmente allein unter Textüberwachung automatisch entstehen. Wir stellen einen hierarchischen Grouping Vision Transformer (GroupViT) vor, der über die übliche Gitterstruktur hinausgeht und lernt, Bildbereiche in fortschreitend größere beliebig geformte Segmente zu gruppieren. GroupViT wird gemeinsam mit einem Textencoder auf einem groß angelegten Bild-Text-Datensatz durch kontrastive Verlustfunktionen trainiert. Unter ausschließlicher Textüberwachung und ohne jegliche Pixel-Level-Annotierungen lernt GroupViT, semantische Bereiche zusammenzufassen und erfüllt die Aufgabe der semantischen Segmentierung auf zero-shot-Basis erfolgreich, d.h. ohne weitere Feinabstimmung. Es erreicht eine zero-shot Genauigkeit von 52,3 % mIoU auf dem PASCAL VOC 2012 Datensatz und 22,4 % mIoU auf dem PASCAL Context Datensatz und leistet wettbewerbsfähig im Vergleich zu den besten Transfer-Lernmethoden, die höhere Überwachungsgrade erfordern. Unser Code ist Open Source und steht unter https://github.com/NVlabs/GroupViT zur Verfügung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Semantische Segmentierung

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Semantische Segmentierung

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GroupViT: Semantische Segmentierung entsteht aus textbasierter Überwachung

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters