HyperAIHyperAI
vor 2 Monaten

Mehrsicht-Aggregationsnetzwerk für dichotome Bildsegmentierung

Yu, Qian ; Zhao, Xiaoqi ; Pang, Youwei ; Zhang, Lihe ; Lu, Huchuan
Mehrsicht-Aggregationsnetzwerk für dichotome Bildsegmentierung
Abstract

Die dichotome Bildsegmentierung (DIS) hat sich kürzlich als Methode zur hochpräzisen Objektsegmentierung von hochaufgelösten natürlichen Bildern etabliert. Bei der Entwicklung eines effektiven DIS-Modells stellt sich die Hauptausforderung dar, wie man das semantische Streuverhalten hochaufgelöster Ziele in einem kleinen Rezeptorfeld und den Verlust hochpräziser Details in einem großen Rezeptorfeld ausgleichen kann. Bestehende Methoden basieren auf mühsamen mehrfachen Encoder-Decoder-Strömen und -Stufen, um allmählich die globale Lokalisierung und lokale Verfeinerung zu erreichen.Das menschliche Sehsystem erfasst Bereiche von Interesse, indem es sie aus mehreren Perspektiven betrachtet. Inspiriert davon modellieren wir DIS als ein Problem der multiview-basierten Objektwahrnehmung und stellen ein sparsames Multiview-Aggregationsnetzwerk (MVANet) vor, das die Merkmalsfusion von Fernansicht und Nahaufnahme in einen einzelnen Strom mit einer Encoder-Decoder-Struktur vereint. Mit Hilfe der vorgeschlagenen multiview-komplementären Lokalisierungs- und Verfeinerungsmodulen etabliert unser Ansatz langreichweitige, tiefgreifende visuelle Interaktionen über mehrere Perspektiven hinweg, was es ermöglicht, dass die Merkmale der detaillierten Nahaufnahme sich auf sehr schlanke Strukturen konzentrieren können.Experimente mit dem beliebten DIS-5K-Datensatz zeigen, dass unser MVANet sowohl in Bezug auf Genauigkeit als auch Geschwindigkeit erheblich bessere Ergebnisse als state-of-the-art-Methoden erzielt. Der Quellcode und die Datensätze werden öffentlich verfügbar sein unter \href{https://github.com/qianyu-dlut/MVANet}{MVANet}.

Mehrsicht-Aggregationsnetzwerk für dichotome Bildsegmentierung | Neueste Forschungsarbeiten | HyperAI