vor 8 Monaten

Zusammenfassung

Die meisten existierenden Methoden zur Erkennung von auffälligen Objekten verwenden hauptsächlich U-Net oder eine Features-Pyramidenstruktur, die einfach Featuremaps verschiedener Skalen aggregiert und dabei deren Einzigartigkeit, Interdependenz sowie ihren jeweiligen Beitrag zur endgültigen Vorhersage außer Acht lässt. Um diese Probleme zu überwinden, schlagen wir das M $^3$ Net vor, also das Netzwerk mit mehrstufiger, gemischter und mehrphasiger Aufmerksamkeit für die Erkennung von auffälligen Objekten (Salient Object Detection, SOD). Zunächst stellen wir den Multiskalen-Interaktionsblock (Multiscale Interaction Block) vor, der neuartig den Ansatz des Cross-Attention einsetzt, um die Interaktion zwischen Features auf verschiedenen Ebenen zu erreichen. Dies ermöglicht es hochstufigen Features, das Lernen von niedrigstufigen Features zu leiten und somit auffällige Regionen zu verbessern. Zweitens berücksichtigen wir die Tatsache, dass frühere SOD-Methoden auf Basis von Transformatoren nur globale Selbst-Aufmerksamkeit (self-attention) zur Lokalisierung von auffälligen Regionen verwenden und dabei unvermeidlich Details komplexer Objekte vernachlässigen. Deshalb schlagen wir den Gemischten Aufmerksamkeitsblock (Mixed Attention Block) vor. Dieser Block kombiniert globale Selbst-Aufmerksamkeit mit Fenster-Selbst-Aufmerksamkeit (window self-attention), wobei das Ziel ist, Kontext auf sowohl globaler als auch lokaler Ebene abzubilden, um die Genauigkeit der Vorhersagemap weiter zu erhöhen. Schließlich haben wir eine mehrstufige Überwachungsstrategie vorgeschlagen, um die aggregierten Features schrittweise zu optimieren. Experimente anhand sechs anspruchsvoller Datensätze zeigen, dass das vorgeschlagene M $^3$ Net vier Metriken nach Maßgabe neuerer CNN- und Transformer-basierter SOD-Methoden übertrifft. Der Quellcode ist unter https://github.com/I2-Multimedia-Lab/M3Net verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Faltungsneuronales Netzwerk

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Transformer

Faltungsneuronales Netzwerk

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

M3^33Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

M3^33Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

M3^33Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

Yao Yuan Pan Gao, Member, IEEE Xiaoyang Tan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

M $^3$ Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

M $^3$ Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten

M $^3$ Net: Mehrstufiges, gemischtes und mehrphasiges Aufmerksamkeitsnetzwerk für die Detektion von auffälligen Objekten