Hochgenaue Dichotome Bildsegmentierung

Wir präsentieren eine systematische Studie zu einer neuen Aufgabe namens dichotome Bildsegmentierung (DIS), die das Ziel verfolgt, Objekte mit hoher Genauigkeit aus natürlichen Bildern zu segmentieren. Zu diesem Zweck haben wir den ersten groß angelegten DIS-Datensatz, DIS5K, gesammelt, der 5.470 hochaufgelöste Bilder (z.B. 2K, 4K oder höher) enthält und getarnte, auffällige oder detaillierte Objekte auf verschiedenen Hintergründen abdeckt. DIS ist mit extrem feingranularen Labels annotiert. Darüber hinaus führen wir ein einfaches Intermediäres Überwachungsmodell (IS-Net) ein, das sowohl auf Feature-Ebene als auch auf Masken-Ebene für die Trainierung von DIS-Modellen verwendet wird. IS-Net übertrifft verschiedene state-of-the-art-Baselines im vorgeschlagenen DIS5K-Datensatz und stellt somit ein allgemeines selbstgelerntes Überwachungsnetzwerk dar, das zukünftige Forschungen in DIS fördern kann. Weiterhin entwickeln wir eine neue Metrik namens menschliche Korrekturaufwand (HCE), die den Anzahl der Mausklicks approximiert, die benötigt werden, um Falschpositiv- und Falschnegativ-Ergebnisse zu korrigieren. HCE wird genutzt, um den Abstand zwischen Modellen und realen Anwendungen zu messen und kann damit bestehende Metriken ergänzen. Schließlich führen wir die größte Benchmark-Studie durch, bei der 16 repräsentative Segmentierungsmodelle evaluiert werden. Dies bietet eine tiefergehende Diskussion über Objektkomplexitäten und zeigt mehrere potentielle Anwendungen (z.B. Hintergrundentfernung, Kunstgestaltung, 3D-Rekonstruktion). Wir hoffen, dass diese Bemühungen vielversprechende Richtlinien sowohl für die Wissenschaft als auch für die Industrie eröffnen werden. Projektseite: https://xuebinqin.github.io/dis/index.html.