Maskierte-Aufmerksamkeits Mask Transformer für universelle Bildsegmentierung

Die Bildsegmentierung befasst sich mit der Gruppierung von Pixeln mit unterschiedlichen Semantiken, wie z.B. Kategorie- oder Instanzzugehörigkeit, wobei jede Wahl der Semantik eine Aufgabe definiert. Obwohl nur die Semantik jeder Aufgabe variiert, konzentriert sich die aktuelle Forschung auf das Design spezialisierter Architekturen für jede Aufgabe. Wir stellen Masked-attention Mask Transformer (Mask2Former) vor, eine neue Architektur, die in der Lage ist, jede Bildsegmentieraufgabe (panoptisch, instanzbasiert oder semantisch) zu bearbeiten. Ihre wesentlichen Komponenten umfassen masked attention (maskierte Aufmerksamkeit), die lokalisierte Merkmale durch Einschränkung des Cross-Attention auf vorhergesagte Maskebereiche extrahiert. Neben einer Verringerung des Forschungsaufwands um mindestens das Drei-fache übertrifft es die besten spezialisierten Architekturen erheblich bei vier gängigen Datensätzen. Besonders erwähnenswert ist, dass Mask2Former einen neuen Stand der Technik in der panoptischen Segmentierung (57,8 PQ auf COCO), instanzbasierten Segmentierung (50,1 AP auf COCO) und semantischen Segmentierung (57,7 mIoU auf ADE20K) setzt.