Lokal semantisch verstärktes ConvNet für die Erkennung luftbildbasierter Szenen
Die Erkennung von Luftbildszenen ist aufgrund der komplexen Objektdistribution und räumlichen Anordnung in großflächigen Luftbildern herausfordernd. Kürzliche Studien versuchen, die lokale semantische Repräsentationsfähigkeit von Deep-Learning-Modellen zu erforschen, doch die genaue Wahrnehmung der entscheidenden lokalen Regionen bleibt weiterhin eine offene Aufgabe. In diesem Artikel präsentieren wir ein lokal semantisch verbessertes ConvNet (LSE-Net) für die Erkennung von Luftbildszenen, das die menschliche visuelle Wahrnehmung entscheidender lokaler Regionen in Luftbildszenen nachahmt, um eine diskriminative lokale semantische Repräsentation zu ermöglichen. Unser LSE-Net besteht aus einem kontextverstärkten convolutionalen Merkmalsextraktor, einem Modul zur lokalen semantischen Wahrnehmung und einer Klassifikationsschicht. Zunächst entwickeln wir einen mehrstufigen, dilatierten Convolution-Operator, um mehrstufige und mehrskalige convolutionale Merkmale trainierbar zu fusions, um die lokalen Merkmalsantworten in einer Luftbildszene vollständig zu erfassen. Anschließend werden diese Merkmale in unser zweigeteiltes Modul zur lokalen semantischen Wahrnehmung eingespeist. In diesem Modul führen wir eine kontextbewusste Klassenspitzenantwort-Messung (Context-Aware Class Peak Response, CACPR) ein, um die visuelle Impulsantwort entscheidender lokaler Regionen sowie die zugehörige Kontextinformation präzise zu beschreiben. Darüber hinaus wird eine räumliche Aufmerksamkeitsgewichtsmatrix extrahiert, um die Bedeutung jeder entscheidenden lokalen Region für die Luftbildszene zu erfassen. Schließlich werden die verfeinerten Klassenzuverlässigkeitskarten in die Klassifikationsschicht eingespeist. Umfangreiche Experimente an drei Benchmark-Datensätzen für die Luftbildszenenerkennung zeigen, dass unser LSE-Net die derzeit beste Leistung erzielt, was die Wirksamkeit unseres Moduls zur lokalen semantischen Wahrnehmung sowie der CACPR-Messung bestätigt.