Zu hochaufgelöster detektion von auffälligen Objekten

Methoden auf der Basis von tiefen neuronalen Netzen haben bei der Detektion von prominenten Objekten einen bedeutenden Durchbruch erzielt. Sie sind jedoch in der Regel auf Eingabebilder mit niedrigen Auflösungen (400 × 400 Pixel oder weniger) beschränkt. Bisherige Anstrengungen zur Ausbildung von tiefen neuronalen Netzen, um direkt die Detektion von prominenten Objekten in sehr hochaufgelösten Bildern zu bewältigen, waren gering. In dieser Arbeit wird die Detektion von prominenten Objekten in hochaufgelösten Bildern vorangetrieben, und es wird ein neuer Datensatz vorgestellt, der als High-Resolution Salient Object Detection (HRSOD) bezeichnet wird. Nach unserem besten Wissen ist HRSOD der erste hochaufgelöste Datensatz für die Salienzdetektion bislang. Als weitere Leistung schlagen wir einen neuen Ansatz vor, der sowohl globale semantische Informationen als auch lokale hochaufgelöste Details in sich vereint, um diese anspruchsvolle Aufgabe zu lösen. Unser Ansatz besteht spezifischerweise aus einem Global Semantic Network (GSN), einem Local Refinement Network (LRN) und einem Global-Local Fusion Network (GLFN). Das GSN extrahiert die globale semantische Information basierend auf einem abgetasteten gesamten Bild. Anhand der Ergebnisse des GSN fokussiert sich das LRN auf bestimmte lokale Bereiche und erzeugt schrittweise hochaufgelöste Vorhersagen. Das GLFN wird weiterhin vorgeschlagen, um räumliche Konsistenz zu gewährleisten und die Leistungsfähigkeit zu steigern. Experimente zeigen, dass unsere Methode bestehende state-of-the-art Methoden bei hochaufgelösten Salienzdatensätzen deutlich übertrifft und vergleichbare oder sogar bessere Ergebnisse als diese bei weit verbreiteten Benchmarks für Salienzdetektion erzielt. Der HRSOD-Datensatz ist unter https://github.com/yi94code/HRSOD verfügbar.