CPDR: Hinweise zur hoch-effizienten Detektion von auffälligen Objekten durch gekreuzte Post-Decodier-Verfeinerung

Die meisten aktuellen Ansätze zur Erkennung von prominenten Objekten verwenden tiefere Netze mit großen Backbones, um präzisere Vorhersagen zu erzeugen. Dies führt zu einem signifikanten Anstieg der Rechenaufwandskomplexität. Eine große Anzahl von Netzwerkdesigns folgt der reinen UNet- und Feature-Pyramid-Network-(FPN)-Architektur, die eine begrenzte Fähigkeit zur Merkmalsextraktion und -aggregation aufweist. Dies hat uns motiviert, ein leichtgewichtiges Post-Decodier-Verfeinerungsmodul, das gekreuzte Post-Decodier-Verfeinerung (CPDR), zu entwerfen, um die Merkmalsrepräsentation eines standardisierten FPN- oder U-Net-Frameworks zu verbessern. Insbesondere führen wir die Aufmerksamkeitsabtastransformation (Attention Down Sample Fusion, ADF) ein, die Kanal-Aufmerksamkeitsmechanismen mit durch hochwertige Darstellungen generierten Aufmerksamkeitskarten verwendet, um niedrigwertige Merkmale zu verfeinern. Zudem stellen wir die Aufmerksamkeitsauftastransformation (Attention Up Sample Fusion, AUF) vor, die durch räumliche Aufmerksamkeit niedrigwertige Informationen nutzt, um hochwertige Merkmale zu leiten. Zusätzlich haben wir auf Basis von ADFs und AUFs die Dual-Aufmerksamkeits-Kreuztransformation (Dual Attention Cross Fusion, DACF) vorgeschlagen, welche die Anzahl der Parameter reduziert, während sie gleichzeitig die Leistung beibehält. Experimente auf fünf Benchmark-Datensätzen zeigen, dass unsere Methode den bisherigen Stand der Technik übertreffen kann.