vor 17 Tagen

Segmentation Transformer: objektkontextuelle Darstellungen für die semantische Segmentierung

Yuhui Yuan, Xiaokang Chen, Xilin Chen, Jingdong Wang

Abstract

In diesem Artikel behandeln wir das Problem der semantischen Segmentierung mit Fokus auf die Strategie zur Aggregation von Kontextinformationen. Unsere Motivation beruht darauf, dass das Etikett eines Pixels die Kategorie des Objekts repräsentiert, zu dem der Pixel gehört. Wir präsentieren einen einfachen, jedoch wirksamen Ansatz namens objektbezogene Repräsentationen, bei dem ein Pixel durch Ausnutzung der Repräsentation seiner entsprechenden Objektklasse charakterisiert wird. Zunächst lernen wir Objektregionen unter der Aufsicht der Ground-Truth-Segmentierung. Anschließend berechnen wir die Repräsentation einer Objektregion durch Aggregation der Repräsentationen der Pixel innerhalb dieser Region. Schließlich berechnen wir die Ähnlichkeit zwischen jedem Pixel und jeder Objektregion und ergänzen die Repräsentation jedes Pixels durch eine objektbezogene Repräsentation, die eine gewichtete Aggregation aller Objektregion-Repräsentationen basierend auf deren Beziehung zu dem jeweiligen Pixel darstellt. Wir demonstrieren empirisch, dass der vorgeschlagene Ansatz auf verschiedenen anspruchsvollen Benchmarks für semantische Segmentierung konkurrenzfähige Ergebnisse erzielt: Cityscapes, ADE20K, LIP, PASCAL-Context und COCO-Stuff. Unser Beitrag „HRNet + OCR + SegFix“ erreichte zum Zeitpunkt der Einreichung den ersten Platz in der Leaderboard von Cityscapes. Der Quellcode ist verfügbar unter: https://git.io/openseg und https://git.io/HRNet.OCR. Wir formulieren das Konzept der objektbezogenen Repräsentationen erneut im Rahmen eines Transformer-Encoder-Decoder-Frameworks. Die detaillierten Informationen finden sich in Abschnitt 3.3.