HyperAIHyperAI
vor 2 Monaten

Occlusionsbewusste Instanzsegmentierung durch BiLayer-Netzwerkarchitekturen

Ke, Lei ; Tai, Yu-Wing ; Tang, Chi-Keung
Occlusionsbewusste Instanzsegmentierung durch BiLayer-Netzwerkarchitekturen
Abstract

Die Segmentierung von stark überlappenden Bildobjekten ist herausfordernd, da es auf Bildern in der Regel keinen Unterschied zwischen echten Objektkonturen und Verdeckungsgrenzen gibt. Im Gegensatz zu früheren Instanzsegmentierungsverfahren modellieren wir die Bildentstehung als Zusammensetzung aus zwei überlappenden Schichten und schlagen das Bilayer Convolutional Network (BCNet) vor, bei dem die obere Schicht verdeckende Objekte (Occluder) erkennt und die untere Schicht teilweise verdeckte Instanzen (Occludee) inferiert. Die explizite Modellierung des Verdeckungsverhältnisses mit einer bilayer-Struktur trennt die Grenzen sowohl der verdeckenden als auch der verdeckten Instanzen natürlich voneinander und berücksichtigt ihre Wechselwirkung während der Maskenregression. Wir untersuchen die Effektivität der bilayer-Struktur anhand zweier gängiger Faltungsnetzwerkdesigns, nämlich des Fully Convolutional Networks (FCN) und des Graph Convolutional Networks (GCN). Darüber hinaus formulieren wir die bilayer-Trennung mithilfe des Vision Transformers (ViT), indem wir die Instanzen im Bild als separate lernfähige Occluder- und Occludee-Abfragen darstellen. Große und konsistente Verbesserungen durch ein-/zweistufige sowie abfragebasierte Objekterkennungssysteme mit verschiedenen Backbones und Netzschichtauswahlen bestätigen die Generalisierungsfähigkeit der bilayer-Trennung, wie umfangreiche Experimente auf Benchmarks für Bildinstanzsegmentierung (COCO, KINS, COCOA) und Videosegmentierung (YTVIS, OVIS, BDD100K MOTS), insbesondere bei schweren Verdeckungsfällen, zeigen. Der Code und die Daten sind unter https://github.com/lkeab/BCNet verfügbar.

Occlusionsbewusste Instanzsegmentierung durch BiLayer-Netzwerkarchitekturen | Neueste Forschungsarbeiten | HyperAI