U$^2$-Net: Tiefer Eintauchen in die geschachtelte U-Struktur für die Detektion von auffälligen Objekten

In dieser Arbeit entwerfen wir eine einfache, aber leistungsfähige Deep-Network-Architektur, die U$^2$-Net, für die Erkennung von prominenten Objekten (Salient Object Detection, SOD). Die Architektur unseres U$^2$-Net besteht aus einer zweistufigen verschachtelten U-Struktur. Das Design hat folgende Vorteile: (1) Es kann dank der Mischung von Rezeptivfeldern unterschiedlicher Größen in den vorgeschlagenen Residuellen U-Blöcken (RSU) mehr kontextuelle Information aus verschiedenen Skalen erfassen, (2) es erhöht die Tiefe der gesamten Architektur ohne die Rechenkosten erheblich zu steigern, aufgrund der in diesen RSU-Blöcken verwendeten Pooling-Operationen. Diese Architektur ermöglicht es uns, ein tiefes Netzwerk von Grund auf zu trainieren, ohne auf Backbones aus Bildklassifizierungsaufgaben zurückzugreifen. Wir realisieren zwei Modelle der vorgeschlagenen Architektur: U$^2$-Net (176,3 MB, 30 FPS auf GTX 1080Ti GPU) und U$^2$-Net$^{\dagger}$ (4,7 MB, 40 FPS), um die Verwendung in verschiedenen Umgebungen zu erleichtern. Beide Modelle erzielen wettbewerbsfähige Ergebnisse auf sechs SOD-Datensätzen. Der Code ist verfügbar: https://github.com/NathanUA/U-2-Net.