HyperAIHyperAI
vor 2 Monaten

M$^3$Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

Yao Yuan; Pan Gao; XiaoYang Tan
M$^3$Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten
Abstract

Die meisten existierenden Methoden zur Erkennung von auffälligen Objekten verwenden hauptsächlich U-Net oder eine Features-Pyramidenstruktur, die einfach Featuremaps verschiedener Skalen aggregiert und dabei deren Einzigartigkeit, Interdependenz sowie ihren jeweiligen Beitrag zur endgültigen Vorhersage außer Acht lässt. Um diese Probleme zu überwinden, schlagen wir das M$^3$Net vor, also das Netzwerk mit mehrstufiger, gemischter und mehrphasiger Aufmerksamkeit für die Erkennung von auffälligen Objekten (Salient Object Detection, SOD). Zunächst stellen wir den Multiskalen-Interaktionsblock (Multiscale Interaction Block) vor, der neuartig den Ansatz des Cross-Attention einsetzt, um die Interaktion zwischen Features auf verschiedenen Ebenen zu erreichen. Dies ermöglicht es hochstufigen Features, das Lernen von niedrigstufigen Features zu leiten und somit auffällige Regionen zu verbessern. Zweitens berücksichtigen wir die Tatsache, dass frühere SOD-Methoden auf Basis von Transformatoren nur globale Selbst-Aufmerksamkeit (self-attention) zur Lokalisierung von auffälligen Regionen verwenden und dabei unvermeidlich Details komplexer Objekte vernachlässigen. Deshalb schlagen wir den Gemischten Aufmerksamkeitsblock (Mixed Attention Block) vor. Dieser Block kombiniert globale Selbst-Aufmerksamkeit mit Fenster-Selbst-Aufmerksamkeit (window self-attention), wobei das Ziel ist, Kontext auf sowohl globaler als auch lokaler Ebene abzubilden, um die Genauigkeit der Vorhersagemap weiter zu erhöhen. Schließlich haben wir eine mehrstufige Überwachungsstrategie vorgeschlagen, um die aggregierten Features schrittweise zu optimieren. Experimente anhand sechs anspruchsvoller Datensätze zeigen, dass das vorgeschlagene M$^3$Net vier Metriken nach Maßgabe neuerer CNN- und Transformer-basierter SOD-Methoden übertrifft. Der Quellcode ist unter https://github.com/I2-Multimedia-Lab/M3Net verfügbar.

M$^3$Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten | Neueste Forschungsarbeiten | HyperAI