MSANet: Multi-Similarity und Aufmerksamkeitsführung zur Verbesserung der Few-Shot-Segmentierung

Few-shot-Segmentierung zielt darauf ab, Objekte aus unbekannten Klassen zu segmentieren, wobei nur eine geringe Anzahl dicht beschrifteter Beispiele zur Verfügung steht. Die Prototypenlernmethode, bei der durch Mittelwertbildung aus globaler und lokaler Objektinformation ein einzelner oder mehrere Prototypen aus den Support-Features abgeleitet werden, wird in der Few-Shot-Segmentierung (FSS) weit verbreitet eingesetzt. Allerdings kann die Nutzung lediglich von Prototypenvektoren möglicherweise unzureichend sein, um die Merkmale aller Trainingsdaten ausreichend zu repräsentieren. Um reichhaltige Merkmale zu extrahieren und präzisere Vorhersagen zu ermöglichen, schlagen wir ein Multi-Similarity- und Attention-Netzwerk (MSANet) vor, das zwei neuartige Module enthält: ein Multi-Similarity-Modul und ein Attention-Modul. Das Multi-Similarity-Modul nutzt mehrere Feature-Maps aus Support- und Query-Bildern, um präzise semantische Beziehungen zu schätzen. Das Attention-Modul leitet das Netzwerk an, sich auf klassenrelevante Informationen zu konzentrieren. Das Netzwerk wurde auf standardisierten FSS-Datensätzen evaluiert: PASCAL-5i 1-Shot, PASCAL-5i 5-Shot, COCO-20i 1-Shot und COCO-20i 5-Shot. Mit dem Backbone ResNet-101 erreicht das MSANet die bisher beste Leistung auf allen vier Benchmark-Datensätzen, wobei die mittlere Intersection-over-Union (mIoU) bei 69,13 %, 73,99 %, 51,09 % und 56,80 % liegt. Der Quellcode ist unter https://github.com/AIVResearch/MSANet verfügbar.