HyperAIHyperAI

Command Palette

Search for a command to run...

F3Net: Fusion, Feedback und Fokus für die Detektion von auffälligen Objekten

Jun Wei Shuhui Wang Qingming Huang

Zusammenfassung

Die meisten existierenden Modelle zur Erkennung von auffälligen Objekten haben durch die Aggregation von auf verschiedenen Ebenen von Faltungsneuralnetzen extrahierten Merkmalen große Fortschritte gemacht. Aufgrund der unterschiedlichen Rezeptiven Felder verschiedener Faltungsschichten gibt es jedoch erhebliche Unterschiede zwischen den von diesen Schichten generierten Merkmalen. Gängige Merkmalsfusionstrategien (Addition oder Konkatenierung) ignorieren diese Unterschiede und können zu suboptimalen Lösungen führen. In dieser Arbeit schlagen wir das F3Net vor, um das oben genannte Problem zu lösen. Es besteht hauptsächlich aus einem Quermerkmalmodul (Cross Feature Module, CFM) und einem kaskadierten Feedbackdekodierer (Cascaded Feedback Decoder, CFD), die durch die Minimierung eines neuen Pixelpositionsbewussten Verlustes (Pixel Position Aware Loss, PPA) trainiert werden. Insbesondere zielt das CFM darauf ab, selektiv mehrstufige Merkmale zu aggregieren. Im Gegensatz zu Addition und Konkatenierung wählt das CFM vor der Fusion anpassungsfähig ergänzende Komponenten aus den Eingabemerkmalen aus, was effektiv verhindern kann, dass zu viel redundante Information eingeführt wird, die die ursprünglichen Merkmale stören könnte. Darüber hinaus verwendet der CFD ein mehrstufiges Feedbackmechanismus, bei dem Merkmale in der Nähe der Überwachung in die Ausgabe früherer Schichten eingeführt werden, um diese zu ergänzen und die Unterschiede zwischen den Merkmalen zu beseitigen. Diese verfeinerten Merkmale durchlaufen mehrere ähnliche Iterationen, bevor sie die endgültigen Salienzkarten generieren. Des Weiteren unterscheidet sich der vorgeschlagene PPA-Verlust vom binären Kreuzentropieverlust dadurch, dass er nicht alle Pixel gleich behandelt. Er kann Informationen über die lokale Struktur eines Pixels synthetisieren, um das Netzwerk dazu anzuregen, sich stärker auf lokale Details zu konzentrieren. Schwierige Pixel aus Rändern oder fehleranfälligen Bereichen erhalten mehr Aufmerksamkeit, um ihre Bedeutung hervorzuheben. Das F3Net ist in der Lage, Regionen auffälliger Objekte präzise zu segmentieren und klare lokale Details bereitzustellen. Umfassende Experimente auf fünf Benchmark-Datensätzen zeigen, dass F3Net sechs Evaluationsmetriken nach modernsten Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp