Command Palette
Search for a command to run...
Ein-Schuss-Segmentierung in einer überladenen Umgebung
Ein-Schuss-Segmentierung in einer überladenen Umgebung
Michaelis Claudio Bethge Matthias Ecker Alexander S.
Zusammenfassung
Wir behandeln das Problem der One-Shot-Segmentierung: die Erkennung und Segmentierung eines bisher unbekannten Objekts in einer stark verwirrten Szene anhand einer einzigen Anweisungsbeispiel. Wir stellen einen neuen Datensatz vor, den wir cluttered Omniglot nennen. Unter Verwendung einer Baseline-Architektur, die eine Siamese-Embedding-Struktur für die Erkennung mit einem U-Net für die Segmentierung kombiniert, zeigen wir, dass steigende Verwirrtheitsgrade die Aufgabe sukzessive schwieriger machen. Mittels Oracle-Modelle, die unterschiedliche Mengen an Ground-Truth-Informationen nutzen können, evaluieren wir verschiedene Aspekte des Problems und zeigen, dass sich bei solchen visuellen Suchaufgaben Erkennung und Segmentierung gegenseitig beeinflussen: die Lösung eines Problems unterstützt die Lösung des anderen. Daher führen wir MaskNet ein, ein verbessertes Modell, das mehrere Kandidatennutzungsorte berücksichtigt, Segmentierungs-Vorschläge generiert, um Hintergrundverwirrung auszublenden, und anschließend zwischen den segmentierten Objekten auswählt. Unsere Ergebnisse deuten darauf hin, dass solche Bilderkennungsmodelle, die auf einer iterativen Verfeinerung der Objekterkennung und der Vordergrund-Segmentierung basieren, eine Möglichkeit darstellen könnten, mit extrem verwirrten Szenen umzugehen.