HyperAIHyperAI

Command Palette

Search for a command to run...

Maskierte-Aufmerksamkeits Mask Transformer für universelle Bildsegmentierung

Bowen Cheng; Ishan Misra; Alexander G. Schwing; Alexander Kirillov; Rohit Girdhar

Zusammenfassung

Die Bildsegmentierung befasst sich mit der Gruppierung von Pixeln mit unterschiedlichen Semantiken, wie z.B. Kategorie- oder Instanzzugehörigkeit, wobei jede Wahl der Semantik eine Aufgabe definiert. Obwohl nur die Semantik jeder Aufgabe variiert, konzentriert sich die aktuelle Forschung auf das Design spezialisierter Architekturen für jede Aufgabe. Wir stellen Masked-attention Mask Transformer (Mask2Former) vor, eine neue Architektur, die in der Lage ist, jede Bildsegmentieraufgabe (panoptisch, instanzbasiert oder semantisch) zu bearbeiten. Ihre wesentlichen Komponenten umfassen masked attention (maskierte Aufmerksamkeit), die lokalisierte Merkmale durch Einschränkung des Cross-Attention auf vorhergesagte Maskebereiche extrahiert. Neben einer Verringerung des Forschungsaufwands um mindestens das Drei-fache übertrifft es die besten spezialisierten Architekturen erheblich bei vier gängigen Datensätzen. Besonders erwähnenswert ist, dass Mask2Former einen neuen Stand der Technik in der panoptischen Segmentierung (57,8 PQ auf COCO), instanzbasierten Segmentierung (50,1 AP auf COCO) und semantischen Segmentierung (57,7 mIoU auf ADE20K) setzt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp