Mask DINO: Ein integriertes, auf Transformer basierendes Framework für Objektdetektion und Segmentierung

In diesem Paper stellen wir Mask DINO vor, einen einheitlichen Ansatz für Objektdetektion und Segmentierung. Mask DINO erweitert DINO (DETR mit verbesserten Noise-robusten Anchor-Boxen) um einen Masken-Vorhersagezweig, der alle Aufgaben der Bildsegmentierung unterstützt (Instanz-, Panoptic- und Semantische Segmentierung). Dabei nutzt es die Query-Embeddings aus DINO, um durch Skalarproduktbildung mit einer hochauflösenden Pixel-Embedding-Karte eine Menge binärer Masken vorherzusagen. Einige zentrale Komponenten von DINO werden für die Segmentierung durch eine geteilte Architektur und einen gemeinsamen Trainingsprozess erweitert. Mask DINO ist einfach, effizient und skalierbar und kann von gemeinsam großen Detektions- und Segmentierungsdatensätzen profitieren. Unsere Experimente zeigen, dass Mask DINO alle bestehenden spezialisierten Segmentierungsverfahren erheblich übertrifft, sowohl mit einem ResNet-50-Backbone als auch mit einem vortrainierten Modell mit SwinL-Backbone. Insbesondere erreicht Mask DINO die bisher besten Ergebnisse bei der Instanzsegmentierung (54,5 AP auf COCO), der Panoptic-Segmentierung (59,4 PQ auf COCO) und der semantischen Segmentierung (60,8 mIoU auf ADE20K) unter Modellen mit weniger als einer Milliarde Parameter. Der Quellcode ist unter \url{https://github.com/IDEACVR/MaskDINO} verfügbar.