HyperAIHyperAI
vor 16 Tagen

MFNet: Multi-class Few-shot Segmentation Network mit pixelweiser Metrik-Lernung

Miao Zhang, Miaojing Shi, Li Li
MFNet: Multi-class Few-shot Segmentation Network mit pixelweiser Metrik-Lernung
Abstract

Bei visuellen Erkennungsaufgaben erfordert das Few-Shot-Lernen die Fähigkeit, Objekt-Kategorien anhand nur weniger Support-Beispiele zu erlernen. Seine aktuelle Wiederbelebung im Kontext der Entwicklung tiefer Lernverfahren konzentriert sich hauptsächlich auf die Bildklassifikation. Diese Arbeit fokussiert sich auf das Few-Shot-Semantische Segmentierung, ein Bereich, der bisher weitgehend unerforscht bleibt. Neuere Fortschritte sind oft auf die Segmentierung einer einzigen Klasse beschränkt. In diesem Paper präsentieren wir zunächst eine neuartige Multi-Way (Klasse)-Codierungs- und -Decodierungsarchitektur, die effektiv informationsreiche, mehrskalige Abfragen und mehrklassige Support-Informationen in einer einzigen Query-Support-Embedding-Struktur vereint. Die mehrklassige Segmentierung wird direkt auf dieser Embedding-Struktur abgeleitet. Zur Verbesserung der Merkmalsfusion wird innerhalb der Architektur ein mehrstufiges Aufmerksamkeitsmechanismus vorgeschlagen, der sowohl Aufmerksamkeit für die Modulation von Support-Features als auch Aufmerksamkeit für die Kombination mehrskaliger Informationen umfasst. Schließlich wird zur Verbesserung des Lernens im Embedding-Raum ein zusätzlicher pixelweiser Metrik-Lernmodul eingeführt, der auf der pixelweisen Embedding-Darstellung des Eingabebildes mit Hilfe einer Triplet-Loss-Funktion formuliert ist. Umfangreiche Experimente an den Standardbenchmarks PASCAL-5i und COCO-20i zeigen deutliche Vorteile unseres Ansatzes gegenüber dem Stand der Technik in der Few-Shot-Segmentierung.