HyperAIHyperAI
vor 12 Tagen

MIANet: Aggregation unverzerrter Instanz- und allgemeiner Informationen für Few-Shot-Semantische Segmentierung

Yong Yang, Qiong Chen, Yuan Feng, Tianlin Huang
MIANet: Aggregation unverzerrter Instanz- und allgemeiner Informationen für Few-Shot-Semantische Segmentierung
Abstract

Bekannte Few-Shot-Segmentierungsmethoden basieren auf der Meta-Lernstrategie und extrahieren Instanzwissen aus einem Support-Satz, um dieses anschließend auf die Segmentierung von Zielobjekten in einem Query-Satz anzuwenden. Allerdings ist das gewonnene Wissen aufgrund der begrenzten Anzahl von Beispielen im Support-Satz oft unzureichend, um die variierenden intra-klassischen Unterschiede effektiv zu bewältigen. Um dieses Problem anzugehen, schlagen wir ein Multi-Information-Aggregation-Netzwerk (MIANet) vor, das allgemeines Wissen – insbesondere semantische Wort-Embeddings – sowie instanzspezifische Informationen effizient nutzt, um präzise Segmentierungen zu erzielen. Konkret wird in MIANet ein Modul für allgemeine Informationen (GIM) eingeführt, das einen allgemeinen Klassen-Prototyp aus Wort-Embeddings extrahiert, um das Instanzwissen zu ergänzen. Dazu entwerfen wir eine Triplet-Loss-Funktion, bei der der allgemeine Klassen-Prototyp als Anchor dient und positive- und negative Paare aus lokalen Merkmalen des Support-Satzes generiert werden. Die berechnete Triplet-Loss ermöglicht es, semantische Ähnlichkeiten zwischen Sprachidentitäten aus dem Wort-Embedding-Raum in den visuellen Darstellungsraum zu übertragen. Um das Modell zu entlasten von einer Überanpassung an die im Trainingsprozess bekannten Klassen und um multiskalare Informationen zu gewinnen, führen wir anschließend ein nicht-parametrisches hierarchisches Prior-Modul (HPM) ein, das verzerrungsfreie instanzspezifische Informationen erzeugt, indem die pixelgenaue Ähnlichkeit zwischen den Merkmalen des Support- und Query-Bildes berechnet wird. Schließlich kombiniert ein Informationsfusion-Modul (IFM) das allgemeine und das instanzspezifische Wissen, um Vorhersagen für das Query-Bild zu generieren. Umfassende Experimente auf den Datensätzen PASCAL-5i und COCO-20i zeigen, dass MIANet eine herausragende Leistung erzielt und eine neue state-of-the-art erreicht. Der Quellcode ist unter https://github.com/Aldrich2y/MIANet verfügbar.