Effizientes Self-Ensemble für die semantische Segmentierung

Es ist bekannt, dass Ensembles von Vorhersagen im Vergleich zu einzelnen, separat durchgeführten Vorhersagen eine bessere Leistung erbringen. Für Aufgaben, die hohe rechnerische Ressourcen erfordern, wie beispielsweise die semantische Segmentierung, ist die Erstellung eines Ensembles aus einzelnen, getrennt trainierten Modellen jedoch kaum praktikabel. In dieser Arbeit schlagen wir vor, den Leistungsboost durch Ensembles zur Verbesserung der semantischen Segmentierung zu nutzen, ohne die traditionell hohen Trainingskosten von Ensembles in Kauf nehmen zu müssen. Unser selbst-ensemble-Ansatz nutzt die mehrskaligen Merkmale, die von Feature-Pyramiden-Netzwerken erzeugt werden, um unabhängige Dekoder zu speisen und somit innerhalb eines einzigen Modells ein Ensemble zu bilden. Ähnlich wie bei klassischen Ensembles wird die endgültige Vorhersage durch Aggregation der Vorhersagen jedes einzelnen Lerners erzeugt. Im Gegensatz zu früheren Ansätzen kann unser Modell end-to-end trainiert werden, wodurch die traditionell aufwändige, mehrstufige Trainingsprozedur von Ensembles entfällt. Unser selbst-ensemble-Ansatz erreicht auf den Benchmark-Datensätzen Pascal Context und COCO-Stuff-10K für die semantische Segmentierung eine bessere Leistung als die aktuell beste Methode und ist auf ADE20K und Cityscapes konkurrenzfähig. Der Quellcode ist öffentlich unter github.com/WalBouss/SenFormer verfügbar.