Autos können nicht in der Luft fliegen: Verbesserung der Segmentierung von städtischen Szenen mittels höhengetriebener Aufmerksamkeitsnetzwerke

Diese Arbeit nutzt die inhärenten Eigenschaften von Stadtszenen-Bildern aus und schlägt ein allgemein einsetzbares Zusatzmodul namens height-driven attention networks (HANet) vor, um die semantische Segmentierung von Stadtszenen-Bildern zu verbessern. Es betont selektiv informative Merkmale oder Klassen basierend auf der vertikalen Position eines Pixels. Die pixelweisen Klassenausprägungen unterscheiden sich signifikant voneinander zwischen horizontal segmentierten Abschnitten in Stadtszenen-Bildern. Ähnlich weisen Stadtszenen ihre eigenen charakteristischen Merkmale auf, doch berücksichtigen die meisten Architekturen für semantische Segmentierung diese spezifischen Eigenschaften nicht. Die vorgeschlagene Netzarchitektur integriert die Fähigkeit, diese Merkmale effektiv auszunutzen, um Stadtszenen-Datensätze gezielt zu bearbeiten. Wir bestätigen durch umfassende quantitative Analysen eine konsistente Steigerung der Leistung (mIoU) verschiedener semantischer Segmentierungsmodelle auf zwei Datensätzen, wenn HANet eingesetzt wird. Diese umfassende quantitative Analyse zeigt, dass die Integration unseres Moduls in bestehende Modelle einfach und kosteneffizient ist. Unser Ansatz erreicht eine neue State-of-the-Art-Leistung auf dem Cityscapes-Benchmark, mit deutlichem Abstand gegenüber anderen ResNet-101-basierten Segmentierungsmodellen. Zudem zeigen wir, dass das vorgeschlagene Modell mit den beobachteten Realitäten in Stadtszenen konsistent ist, indem wir die Aufmerksamkeitskarten visualisieren und interpretieren. Unser Quellcode und die trainierten Modelle sind öffentlich unter https://github.com/shachoi/HANet verfügbar.