HyperAIHyperAI
vor 11 Tagen

Ein mehrfach-Instanz-dicht verbundener ConvNet für die Klassifikation luftbildlicher Szenen

{Gui-Song Xia, Kai Xu, Han Zhang, Zhili Li, Kun Qin, Qi Bi}
Abstract

Im Gegensatz zu Naturansichten sind Luftbildansichten oft durch eine dichte Verteilung vieler Objekte auf der Oberfläche aus der Vogelperspektive gekennzeichnet, deren Beschreibung in der Regel eine höhere Anzahl an diskriminativen Merkmalen sowie lokale Semantik erfordert. Bei der Anwendung auf die Szenenklassifizierung neigen die meisten bestehenden konvolutionellen neuronalen Netze (ConvNets) jedoch dazu, vor allem globale Semantik von Bildern zu erfassen, wobei der Verlust von niederen und mittleren Merkmalen kaum zu vermeiden ist, insbesondere wenn das Modell tiefer wird. Um diesen Herausforderungen zu begegnen, schlagen wir in diesem Artikel ein mehrfach-Instanz-dicht verbundenes ConvNet (MIDC-Net) für die Klassifizierung von Luftbildansichten vor. Dabei wird die Klassifizierung von Luftbildansichten als ein mehrfach-Instanz-Lernproblem betrachtet, um die lokale Semantik weiter zu untersuchen. Unser Klassifikationsmodell besteht aus einem Instanz-Level-Klassifikator, einer mehrfach-Instanz-Pooling-Schicht und einer anschließenden Bag-Level-Klassifikationsschicht. Im Instanz-Level-Klassifikator schlagen wir eine vereinfachte dichte Verbindungsstruktur vor, um Merkmale unterschiedlicher Ebenen effektiv zu bewahren. Die extrahierten konvolutionellen Merkmale werden anschließend in Instanz-Merkmalsvektoren umgewandelt. Anschließend präsentieren wir ein trainierbares, auf Aufmerksamkeit basierendes mehrfach-Instanz-Pooling. Es hebt die lokalen Merkmale hervor, die mit der Szenenklasse korrelieren, und gibt direkt die Bag-Level-Wahrscheinlichkeit aus. Schließlich ermöglicht unsere Bag-Level-Klassifikationsschicht, dass das mehrfach-Instanz-Lernframework direkt durch Bag-Labels überwacht wird. Experimente an drei weit verbreiteten Benchmarks für Luftbildansichten zeigen, dass unsere vorgeschlagene Methode viele state-of-the-art-Verfahren mit deutlich weniger Parametern deutlich übertrifft.

Ein mehrfach-Instanz-dicht verbundener ConvNet für die Klassifikation luftbildlicher Szenen | Neueste Forschungsarbeiten | HyperAI