GMMSeg: auf Gauss-Mischmodellen basierende generative semantische Segmentierungsmodelle

Übliche Ansätze zur semantischen Segmentierung sind im Wesentlichen dichte diskriminative Klassifikatoren der Form p(class|pixel feature). Obwohl diese Herangehensweise einfach erscheint, vernachlässigt sie die zugrundeliegende Datenausbreitung p(pixel feature|class) und hat Schwierigkeiten, Daten außerhalb der Trainingsverteilung (out-of-distribution) zu erkennen. In diesem Sinne schlagen wir GMMSeg vor, eine neue Familie von Segmentierungsmodellen, die auf einem dichten generativen Klassifikator für die gemeinsame Verteilung p(pixel feature, class) basieren. Für jede Klasse konstruiert GMMSeg mittels Expectation-Maximization (EM) Gauss-Mischmodelle (GMMs), um die klassenbedingten Dichten präzise zu erfassen. Gleichzeitig wird die tiefe dichte Repräsentation end-to-end diskriminativ trainiert, d.h. durch Maximierung von p(class|pixel feature). Dadurch verbindet GMMSeg die Stärken sowohl generativer als auch diskriminativer Modelle. Mit einer Vielzahl von Segmentierungsarchitekturen und Backbone-Netzwerken übertrifft GMMSeg die rein diskriminativen Ansätze auf drei geschlossenen Datensätzen. Noch beeindruckender ist, dass GMMSeg ohne jegliche Modifikation bereits auf offenen Welt-Datensätzen gut abschneidet. Wir sind überzeugt, dass diese Arbeit grundlegende Erkenntnisse für die betroffenen Forschungsfelder liefert.