Globales Kontextbewusstes Progressives Aggregationsnetzwerk für die Erkennung von auffälligen Objekten

Tiefe Faltungsneuronale Netze (CNNs) haben wettbewerbsfähige Leistungen bei der Erkennung von auffälligen Objekten erzielt, wobei das effektive und umfassende Lernen von Merkmalen eine entscheidende Rolle spielt. Die meisten früheren Arbeiten nutzten hauptsächlich die Integration von Merkmalen auf verschiedenen Ebenen, ignorierten jedoch die Unterschiede zwischen den einzelnen Merkmalen. Darüber hinaus tritt bei der Weitergabe der hochstufigen Merkmale entlang des top-down-Pfades ein Verdünnungsprozess auf. Um diese Probleme zu beheben, schlagen wir ein neues Netzwerk namens GCPANet vor, das niedrigstufige Erscheinungsmerkmale, hochstufige semantische Merkmale und globale Kontextmerkmale durch fortschreitende kontextsensible Feature-Interweaved-Aggregation (FIA)-Module effektiv integriert und die Salienzkarte in einem überwachten Verfahren generiert. Zudem wird ein Head-Attention (HA)-Modul verwendet, um Informationsredundanzen zu verringern und die Merkmale der oberen Schichten durch die Nutzung räumlicher und kanalbasierter Aufmerksamkeit zu verbessern. Das Self-Refinement (SR)-Modul dient dazu, die Eingabe-Merkmale weiter zu verfeinern und zu erhöhen. Des Weiteren haben wir das Global Context Flow (GCF)-Modul entwickelt, um globale Kontextinformationen in verschiedenen Stadien zu generieren. Dieses Modul zielt darauf ab, die Beziehungen zwischen verschiedenen auffälligen Regionen zu lernen und den Verdünnungseffekt der hochstufigen Merkmale zu mildern. Experimentelle Ergebnisse auf sechs Benchmark-Datensätzen zeigen, dass der vorgeschlagene Ansatz sowohl quantitativ als auch qualitativ den Stand der Technik übertreffen kann.