Sequentielle Ensembling für die semantische Segmentierung

Ensemble-Ansätze für semantische Segmentierung basierend auf Deep Learning bleiben trotz der Vielzahl an konkurrierenden Benchmarks und nachgeschalteten Anwendungen bisher unzureichend erforscht. In dieser Arbeit untersuchen und benchmarken wir die gängige Ensemble-Strategie, bei der Vorhersagen mehrerer unabhängig trainierter, state-of-the-art-Modelle zur Testzeit kombiniert werden, auf etablierten Datensätzen. Darüber hinaus stellen wir eine neuartige Methode vor, die sich an Boosting orientiert und Netzwerke sequenziell ensembles, wodurch sie die naive Ensemble-Benchmark deutlich übertrifft. Unser Ansatz trainiert eine Kaskade von Modellen, wobei die Klassenausgaben des vorherigen Modells als zusätzliche Eingabe verwendet werden. Ein wesentlicher Vorteil dieser Vorgehensweise ist die Möglichkeit zur dynamischen Rechenlastverlagerung, was die Bereitstellung auf mobilen Geräten erleichtert. Der von uns vorgeschlagene neue ADaptive modulatiON (ADON)-Block ermöglicht eine räumliche Feature-Modulation auf verschiedenen Schichten unter Verwendung der Wahrscheinlichkeiten aus der vorherigen Stufe. Unser Ansatz erfordert während des Trainings keine komplexen Strategien zur Beispiel-Auswahl und ist mit mehreren neuronalen Architekturen kompatibel. Wir erreichen erhebliche Verbesserungen gegenüber der naiven Ensemble-Benchmark auf anspruchsvollen Datensätzen wie Cityscapes, ADE-20K, COCO-Stuff und PASCAL-Context und etablieren eine neue State-of-the-Art-Leistung.