Selbstgeleitetes und Kreuzgeleitetes Lernen für Few-Shot-Segmentierung

Few-shot-Segmentierung hat aufgrund ihrer Effektivität, unerkannte Objektklassen mit nur wenigen annotierten Beispielen zu segmentieren, erhebliche Aufmerksamkeit erhalten. Die meisten bestehenden Ansätze nutzen masked Global Average Pooling (GAP), um ein annotiertes Support-Bild in einen Merkmalsvektor zu kodieren, um die Segmentierung eines Query-Bildes zu erleichtern. Dieser Ansatz verliert jedoch unweigerlich einige differenzierende Informationen aufgrund der Durchschnittsbildung. In diesem Paper stellen wir einen einfachen, aber wirksamen selbstgeführten Lernansatz vor, bei dem die verloren gegangenen kritischen Informationen wiederhergestellt werden. Konkret wird durch eine erste Vorhersage für das annotierte Support-Bild der überdeckte und der nicht überdeckte Vordergrund jeweils mittels masked GAP in einen primären und einen sekundären Support-Vektor kodiert. Durch die Aggregation beider, primärer und sekundärer, Support-Vektoren werden verbesserte Segmentierungsergebnisse für Query-Bilder erzielt. Inspiriert durch unseren selbstgeführten Modul für 1-Shot-Segmentierung entwickeln wir einen cross-geführten Modul für Mehr-Shot-Segmentierung, bei dem das endgültige Maskenbild durch Fusionsverfahren aus Vorhersagen mehrerer annotierter Beispiele generiert wird, wobei Support-Vektoren hoher Qualität einen größeren Beitrag leisten und umgekehrt. Dieser Modul verbessert die endgültige Vorhersage im Inferenzstadium ohne erneutes Training. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl auf den PASCAL-5i- als auch auf den COCO-20i-Datensätzen neue SOTA-Leistungen erzielt.