HyperAIHyperAI

Command Palette

Search for a command to run...

M3^33Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

Die meisten existierenden Methoden zur Erkennung von auffälligen Objekten verwenden hauptsächlich U-Net oder eine Features-Pyramidenstruktur, die einfach Featuremaps verschiedener Skalen aggregiert und dabei deren Einzigartigkeit, Interdependenz sowie ihren jeweiligen Beitrag zur endgültigen Vorhersage außer Acht lässt. Um diese Probleme zu überwinden, schlagen wir das M3^33Net vor, also das Netzwerk mit mehrstufiger, gemischter und mehrphasiger Aufmerksamkeit für die Erkennung von auffälligen Objekten (Salient Object Detection, SOD). Zunächst stellen wir den Multiskalen-Interaktionsblock (Multiscale Interaction Block) vor, der neuartig den Ansatz des Cross-Attention einsetzt, um die Interaktion zwischen Features auf verschiedenen Ebenen zu erreichen. Dies ermöglicht es hochstufigen Features, das Lernen von niedrigstufigen Features zu leiten und somit auffällige Regionen zu verbessern. Zweitens berücksichtigen wir die Tatsache, dass frühere SOD-Methoden auf Basis von Transformatoren nur globale Selbst-Aufmerksamkeit (self-attention) zur Lokalisierung von auffälligen Regionen verwenden und dabei unvermeidlich Details komplexer Objekte vernachlässigen. Deshalb schlagen wir den Gemischten Aufmerksamkeitsblock (Mixed Attention Block) vor. Dieser Block kombiniert globale Selbst-Aufmerksamkeit mit Fenster-Selbst-Aufmerksamkeit (window self-attention), wobei das Ziel ist, Kontext auf sowohl globaler als auch lokaler Ebene abzubilden, um die Genauigkeit der Vorhersagemap weiter zu erhöhen. Schließlich haben wir eine mehrstufige Überwachungsstrategie vorgeschlagen, um die aggregierten Features schrittweise zu optimieren. Experimente anhand sechs anspruchsvoller Datensätze zeigen, dass das vorgeschlagene M3^33Net vier Metriken nach Maßgabe neuerer CNN- und Transformer-basierter SOD-Methoden übertrifft. Der Quellcode ist unter https://github.com/I2-Multimedia-Lab/M3Net verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp