Command Palette
Search for a command to run...
SelfReformer: Selbstverfeinerte Netzwerk mit Transformer für die Erkennung auffälliger Objekte
SelfReformer: Selbstverfeinerte Netzwerk mit Transformer für die Erkennung auffälliger Objekte
Yi Ke Yun Weisi Lin
Zusammenfassung
Die globalen und lokalen Kontexte tragen erheblich zur Integrität der Vorhersagen im Salient Object Detection (SOD) bei. Leider gelingen bestehende Methoden weiterhin nicht, vollständige Vorhersagen mit feinen Details zu generieren. In herkömmlichen Ansätzen bestehen zwei zentrale Probleme: Erstens können hochwertige, CNN-basierte Encoder-Features den globalen Kontext nicht effektiv erfassen, insbesondere langreichweitige Abhängigkeiten, was zu unvollständigen Vorhersagen führt. Zweitens verursacht die Untersampling des Ground Truth, um die Größe der Vorhersagen anzupassen, Ungenauigkeiten, da während der Interpolation oder Pooling-Prozesse feine Details verloren gehen. Daher entwickeln wir in diesem Werk ein auf Transformer basierendes Netzwerk und formulieren eine überwachte Aufgabe für einen Zweig, um den globalen Kontext explizit zu lernen. Zudem verwenden wir den Pixel Shuffle aus der Super-Resolution (SR)-Technik, um die Vorhersagen rückwärts auf die ursprüngliche Größe des Ground Truth zurückzuschreiben, anstatt die Umkehrung durchzuführen. Auf diese Weise bleiben die feinen Details des Ground Truth unangetastet. Darüber hinaus entwickeln wir ein zweistufiges Context Refinement Module (CRM), das den globalen Kontext integriert und automatisch lokale Details in den Vorhersagen erkennt und verfeinert. Das vorgeschlagene Netzwerk kann sich selbst aufgrund der generierten globalen und lokalen Kontexte leiten und korrigieren, weshalb es Self-Refined Transformer (SelfReformer) genannt wird. Umfassende Experimente und Evaluierungsergebnisse auf fünf Benchmark-Datensätzen belegen die herausragende Leistung des Netzwerks, wobei wir den Stand der Technik erreichen.