Revitalisierung des iterativen Trainings mit Maskenführung für interaktive Segmentierung

Neuere Arbeiten zu klickbasierten interaktiven Segmentierungen haben durch den Einsatz verschiedener Optimierungsverfahren zur Inferenzzeit state-of-the-art Ergebnisse erzielt. Diese Ansätze sind im Vergleich zu feedforward-basierten Methoden erheblich rechenintensiver, da sie während der Inferenz Rückwärtsdurchläufe durch ein Netzwerk erfordern und sich daher schwer in mobilen Frameworks einsetzen lassen, die in der Regel nur Vorwärtsdurchläufe unterstützen. In diesem Paper evaluieren wir umfassend verschiedene Gestaltungsentscheidungen für interaktive Segmentierung und stellen fest, dass sich neue state-of-the-art Ergebnisse auch ohne zusätzliche Optimierungsschemata erzielen lassen. Daher schlagen wir ein einfaches feedforward-basiertes Modell für klickbasierte interaktive Segmentierung vor, das die Segmentierungsmasken aus vorherigen Schritten nutzt. Dies ermöglicht nicht nur die Segmentierung eines vollständig neuen Objekts, sondern auch die Korrektur einer externen Maske. Bei der Analyse der Leistung von Modellen, die auf verschiedenen Datensätzen trainiert wurden, stellen wir fest, dass die Wahl des Trainingsdatensatzes einen erheblichen Einfluss auf die Qualität der interaktiven Segmentierung hat. Wir beobachten, dass Modelle, die auf einer Kombination aus COCO und LVIS mit vielfältigen und hochwertigen Annotationen trainiert wurden, eine Leistung erreichen, die alle bisherigen Modelle übertrifft. Der Quellcode und die trainierten Modelle sind unter https://github.com/saic-vul/ritm_interactive_segmentation verfügbar.