Kontextbewusste Aufmerksamkeits-Pooling (CAP) für feinkörnige visuelle Klassifikation

Tief verbundene neuronale Netzwerke (CNNs) haben eine starke Fähigkeit bei der Extraktion diskriminativer Objektpose- und Teilinformationen für die Bilderkennung gezeigt. Bei der feinkörnigen Erkennung spielt eine kontextbewusste, reichhaltige Merkmalsdarstellung von Objekten/Szenen eine entscheidende Rolle, da innerhalb derselben Unterklasse erhebliche Varianzen und zwischen verschiedenen Unterklassen nur geringfügige Unterschiede bestehen. Die Identifizierung der feinen, das Objekt/Szenario vollständig charakterisierenden Unterschiede ist dabei nicht trivial. Um diesem Problem zu begegnen, schlagen wir einen neuartigen kontextbewussten Aufmerksamkeitspooling-Ansatz (CAP) vor, der feine Veränderungen effektiv über Subpixel-Gradienten erfasst und lernt, informative integrale Regionen sowie deren Relevanz bei der Unterscheidung verschiedener Unterklassen zu erkennen – ohne dass Bounding-Box- oder unterscheidbare Teilannotierungen erforderlich sind. Zudem führen wir eine neuartige Merkmalskodierung ein, die die inhärente Konsistenz zwischen der Informationsdichte integraler Regionen und ihrer räumlichen Struktur berücksichtigt, um semantische Korrelationen zwischen diesen Regionen zu erfassen. Unser Ansatz ist einfach, aber äußerst wirksam und lässt sich problemlos auf einer Standard-Klassifizierungs-Backbone-Netzwerkarchitektur implementieren. Wir evaluieren unseren Ansatz anhand sechs state-of-the-art (SotA)-Backbone-Netzwerke und acht Benchmark-Datensätzen. Unser Verfahren übertrifft die SotA-Ansätze signifikant auf sechs Datensätzen und ist auf den verbleibenden beiden sehr konkurrenzfähig.