Context Prior für die Szenensegmentierung

Kürzliche Arbeiten haben den kontextuellen Abhängigkeiten weitgehend Aufmerksamkeit gewidmet, um genauere Segmentierungsergebnisse zu erzielen. Allerdings unterscheiden die meisten Ansätze selten zwischen verschiedenen Arten kontextueller Abhängigkeiten, was die Szenenverstehbarkeit beeinträchtigen kann. In dieser Arbeit überwachen wir direkt die Merkmalsaggregation, um die intra-klassischen und inter-klassischen Kontexte klar zu trennen. Konkret entwickeln wir eine Kontextprior mit der Überwachung durch die Affinitätsverlustfunktion (Affinity Loss). Gegeben ein Eingabebild und die entsprechende Ground-Truth, konstruiert die Affinitätsverlustfunktion eine ideale Affinitätskarte, um das Lernen der Kontextprior zu steuern. Die gelernte Kontextprior extrahiert Pixel, die derselben Kategorie angehören, während die umgekehrte Priorität auf Pixel verschiedener Klassen fokussiert. In eine herkömmliche tiefe CNN-Architektur integriert, kann die vorgeschlagene Kontextprior-Schicht selektiv intra-klassische und inter-klassische kontextuelle Abhängigkeiten erfassen und somit robuste Merkmalsdarstellungen erzeugen. Zur Validierung der Wirksamkeit entwerfen wir ein effektives Kontextprior-Netzwerk (CPNet). Umfassende quantitative und qualitative Evaluierungen zeigen, dass das vorgeschlagene Modell gegenüber aktuellen state-of-the-art-Ansätzen für semantische Segmentierung überlegen ist. Genauer gesagt erreicht unser Algorithmus eine mIoU von 46,3 % auf ADE20K, 53,9 % auf PASCAL-Context und 81,3 % auf Cityscapes. Der Quellcode ist unter https://git.io/ContextPrior verfügbar.