Command Palette
Search for a command to run...
Tiefeninduziertes mehrskaliges rekurrentes Aufmerksamkeitsnetzwerk für die Aufmerksamkeitsdetektion
Tiefeninduziertes mehrskaliges rekurrentes Aufmerksamkeitsnetzwerk für die Aufmerksamkeitsdetektion
Huchuan Lu Miao Zhang Jingjing Li Wei Ji Yongri Piao
Zusammenfassung
In dieser Arbeit stellen wir ein neuartiges, tiefeninduziertes mehrskaliges rekurrentes Aufmerksamkeitsnetzwerk für die Aufmerksamkeitsdetektion vor. Es erreicht eine signifikante Leistungssteigerung, insbesondere in komplexen Szenarien. Unser Netzwerk weist drei Hauptbeiträge auf, die experimentell als von erheblichem praktischem Nutzen erwiesen wurden. Erstens entwerfen wir einen effektiven Refinementsblock für die Tiefeninformation, der Rückkopplungsverbindungen nutzt, um mehrstufige, komplementäre Hinweise aus den RGB- und Tiefenströmen vollständig zu extrahieren und zu fusionieren. Zweitens kombinieren wir Tiefeninformationen mit reichhaltiger räumlicher Struktur innovativ mit mehrskaligen Kontextmerkmalen, um die Positionierung auffälliger Objekte präzise zu ermöglichen. Drittens steigern wir die Modellleistung durch ein neuartiges rekurrentes Aufmerksamkeitsmodul, das sich an der internen generativen Mechanik des menschlichen Gehirns orientiert. Dieses Modul erzeugt genauere Aufmerksamkeitsresultate, indem es die internen semantischen Beziehungen der gefussten Merkmale umfassend lernt und die lokalen Details schrittweise unter Nutzung von Speichermechanismen zur Szenenverstehensoptimierung verbessert. Zudem erstellen wir eine großskalige RGB-D-Datenbank mit komplexeren Szenarien, die zur umfassenden Bewertung von Aufmerksamkeitsmodellen beitragen kann. Umfangreiche Experimente an sechs öffentlichen Datensätzen sowie unserem eigenen Datensatz zeigen, dass unsere Methode auffällige Objekte präzise identifizieren kann und konsistent über 16 state-of-the-art-Methoden für RGB- und RGB-D-Daten hinausragende Ergebnisse erzielt.