Iterative Few-shot-Semantische Segmentierung aus Bild-Label-Text

Few-shot semantische Segmentierung zielt darauf ab, Objekte unerkannter Klassen zu segmentieren, wobei lediglich wenige Support-Bilder zur Orientierung dienen. Die meisten bisherigen Ansätze basieren auf pixelgenauen Etiketten der Support-Bilder. In diesem Paper konzentrieren wir uns auf eine anspruchsvollere Situation, bei der lediglich bilddatenbasierte Etiketten zur Verfügung stehen. Wir stellen einen allgemeinen Rahmen vor, der zunächst grobe Masken mithilfe des leistungsstarken Vision-Sprache-Modells CLIP generiert und anschließend die Maskenvorhersagen von Support- und Query-Bildern iterativ und wechselseitig verfeinert. Umfangreiche Experimente auf den Datensätzen PASCAL-5i und COCO-20i zeigen, dass unsere Methode nicht nur die bisherigen fortschrittlichsten schwach überwachten Ansätze deutlich übertrifft, sondern zudem Ergebnisse erzielt, die mit jüngeren überwachten Methoden vergleichbar oder sogar überlegen sind. Darüber hinaus weist unsere Methode eine hervorragende Generalisierungsfähigkeit für Bilder aus der realen Welt und seltene Klassen auf. Der Quellcode wird unter https://github.com/Whileherham/IMR-HSNet verfügbar sein.