Pyramid Grafting Network für die einstufige Hochauflösende Salienzdetektion

Neuere Methoden zur Erkennung von auffälligen Objekten (SOD) auf der Basis tiefer neuronaler Netze haben bemerkenswerte Leistungen erzielt. Allerdings zeigen die meisten bestehenden SOD-Modelle, die für Eingaben mit niedriger Auflösung entwickelt wurden, bei hochaufgelösten Bildern ein schlechtes Verhalten aufgrund des Konflikts zwischen der Abtasttiefe und der Größe des Rezeptivfelds. Um diesen Konflikt zu lösen, schlagen wir ein neues One-Stage-Framework vor, das Pyramid Grafting Network (PGNet) genannt wird. Dieses Framework nutzt sowohl Transformer- als auch CNN-Basisarchitekturen, um unabhängig voneinander Merkmale aus Bildern unterschiedlicher Auflösungen zu extrahieren, und pflanzt dann die Merkmale vom Transformer-Ast auf den CNN-Ast über. Ein aufmerksamkeitsbasierter Cross-Model Grafting Modul (CMGM) wurde entwickelt, um den CNN-Ast während des Decodierprozesses durch verschiedene Quellenmerkmale zu leiten und so gebrochene detaillierte Informationen kohärenter zu kombinieren. Darüber hinaus haben wir einen Attention Guided Loss (AGL) entworfen, um die durch den CMGM generierte Aufmerksamkeitsmatrix explizit zu überwachen und das Netzwerk dabei zu unterstützen, besser mit der Aufmerksamkeit verschiedener Modelle zu interagieren. Wir stellen einen neuen Datensatz für Ultra-High-Resolution Saliency Detection (UHRSD) zur Verfügung, der 5.920 Bilder in 4K-8K-Auflösung enthält. Nach unserem Wissen ist es der größte Datensatz sowohl in Bezug auf Menge als auch auf Auflösung für die Aufgabe der hochaufgelösten SOD und kann für zukünftige Forschungsarbeiten zum Training und Testing verwendet werden. Ausreichende Experimente auf dem UHRSD-Datensatz sowie weit verbreiteten SOD-Datensätzen zeigen, dass unsere Methode im Vergleich zu den besten bisher bekannten Methoden eine überlegene Leistung erzielt.请注意,这里的“法语”应为“德语”,因此我已按照德语的标准进行了翻译。