CFR-ICL: Cascade-Forward Verfeinerung mit iterativem Klickverlust für interaktive Bildsegmentierung

Die clickbasierte interaktive Segmentierung zielt darauf ab, das interessierende Objekt aus einem Bild mit Hilfe von Benutzerklicks zu extrahieren. Neuere Ansätze erreichten durch die Nutzung von Rückmeldungen aus der Ausgabe erhebliche Gesamtleistungen. Allerdings weisen die meisten modernsten Verfahren zwei wesentliche Einschränkungen auf: 1) Der Inferenzprozess basiert auf starren heuristischen Regeln und erfordert ein separates Nachverfeinerungsmodell, und 2) lässt sich zwischen der Anzahl der Benutzerklicks und der Modellleistung nicht effizient ausbalancieren. Um diese Herausforderungen zu bewältigen, stellen wir einen clickbasierten und maskengesteuerten interaktiven Bildsegmentierungsansatz vor, der drei neuartige Komponenten enthält: Cascade-Forward-Refinement (CFR), Iterative-Click-Verlust (ICL) und SUEM-Bildaugmentation. Das CFR bietet einen einheitlichen Inferenzrahmen, um Segmentierungsergebnisse in einer grob-zu-fein-Methode zu generieren. Der vorgeschlagene ICL ermöglicht es dem Modell, während des Trainings gleichzeitig die Segmentierungsgenauigkeit zu verbessern und die Anzahl der Benutzerinteraktionen zu reduzieren. Die vorgeschlagene SUEM-Augmentation stellt eine umfassende Methode dar, um große und vielfältige Trainingsdatensätze für interaktive Bildsegmentierung zu erstellen. Umfangreiche Experimente belegen die state-of-the-art-Leistung des vorgeschlagenen Ansatzes auf fünf öffentlichen Datensätzen. Bemerkenswert ist, dass unser Modell die Anzahl der erforderlichen Klicks, um die IoU von 0,95 im Vergleich zu der vorherigen state-of-the-art-Methode auf den Datensätzen Berkeley und DAVIS um 33,2 % bzw. 15,5 % zu überschreiten, deutlich reduziert.