Hyperrelation-Netzwerk basierend auf Multi-Similarity für Few-Shot-Segmentierung

Few-shot-Semantische Segmentierung zielt darauf ab, Objektregionen unerkannter Kategorien mit nur wenigen annotierten Beispielen als Supervision zu erkennen. Der Schlüssel zur Few-shot-Segmentierung liegt in der Schaffung einer robusten semantischen Beziehung zwischen Unterstützungsbildern (support images) und Abfragenbildern (query images) sowie in der Vermeidung von Overfitting. In diesem Paper stellen wir ein effektives Multi-Similarity-Hyperrelation-Netzwerk (MSHNet) vor, um das Problem der Few-shot-Semantischen Segmentierung anzugehen. Im MSHNet führen wir eine neue generative Prototyp-Ähnlichkeit (Generative Prototype Similarity, GPS) ein, die zusammen mit der Kosinus-Ähnlichkeit eine starke semantische Beziehung zwischen Unterstützungsbildern und Abfragenbildern herstellt. Die lokal generierte Prototyp-Ähnlichkeit basierend auf globalen Merkmalen ist logisch ergänzend zur globalen Kosinus-Ähnlichkeit, die auf lokalen Merkmalen basiert, und ermöglicht es, die Beziehung zwischen Abfragenbild und Unterstützungsbild umfassender zu beschreiben, indem beide Ähnlichkeiten gleichzeitig genutzt werden. Darüber hinaus schlagen wir einen symmetrischen Verschmelzungsblock (Symmetric Merging Block, SMB) im MSHNet vor, um mehrschichtige, mehrschuss- und mehrsimilarity-basierte Hyperrelationen effizient zu fusionieren. MSHNet basiert nicht auf spezifischen Kategoriemerkmalen, sondern auf Ähnlichkeitsbeziehungen, was eine größere Allgemeingültigkeit ermöglicht und Overfitting effektiv reduziert. Auf zwei etablierten Benchmark-Datensätzen für semantische Segmentierung, Pascal-5i und COCO-20i, erreicht MSHNet neue State-of-the-Art-Ergebnisse bei 1-Shot- und 5-Shot-Segmentierungsaufgaben.