All Grains, One Scheme (AGOS): Lernen einer Multi-Grain-Instanzrepräsentation für die Klassifikation von Luftbild-Szenen

Die Klassifikation von Luftbildern bleibt weiterhin herausfordernd, da: 1) die Größe der Schlüsselobjekte, die zur Bestimmung der Szenenklasse entscheidend sind, stark variieren; und 2) in den Bildern häufig eine Vielzahl von Objekten erscheint, die für die Szenenklasse irrelevant sind. Daher ist es entscheidend, effektiv Regionen von Interesse (RoIs) unterschiedlicher Größe wahrzunehmen und aus dieser komplexen Objektaufteilung differenziertere Darstellungen zu generieren, um eine Luftszene vollständig zu verstehen. In diesem Artikel stellen wir einen neuartigen Rahmenwerk, das „All Grains, One Scheme“ (AGOS), vor, um diese Herausforderungen zu bewältigen. Sofern uns bekannt, ist dies die erste Arbeit, die das klassische Multiple-Instance-Learning (MIL) in eine Mehrkornformulierung erweitert. Der vorgeschlagene Ansatz besteht aus drei Hauptkomponenten: einem Multi-Grain-Wahrnehmungsmodul (MGP), einem Multi-Branch-Multiple-Instance-Representation-Modul (MBMIR) und einem selbst-alignierten semantischen Fusion-Modul (SSF). Zunächst bewahrt unser MGP differenzierte dilatierte konvolutionale Merkmale aus dem Backbone-Netzwerk, wodurch die diskriminativen Informationen aus mehreren Skalen verstärkt werden. Anschließend hebt unser MBMIR unter der MIL-Formulierung die relevanten Instanzen in der Mehrkorn-Darstellung hervor. Schließlich ermöglicht unser SSF dem Framework, die gleiche Szenenklasse aus mehreren Korn-Instanz-Darstellungen zu lernen und diese zu fusionieren, sodass das gesamte System als einheitliches Ganzes optimiert wird. Besonders hervorzuheben ist, dass unser AGOS flexibel ist und problemlos in bestehende CNNs in plug-and-play-Weise integriert werden kann. Umfangreiche Experimente auf den Benchmarks UCM, AID und NWPU zeigen, dass unser AGOS eine Leistung erzielt, die mit den aktuell besten Methoden vergleichbar ist.