HyperAIHyperAI
vor 12 Tagen

Maskierte Cross-Bild-Encoderung für Few-shot-Segmentation

Wenbo Xu, Huaxi Huang, Ming Cheng, Litao Yu, Qiang Wu, Jian Zhang
Maskierte Cross-Bild-Encoderung für Few-shot-Segmentation
Abstract

Few-shot-Segmentation (FSS) ist eine Dichteprediktionsaufgabe, die darauf abzielt, die pixelgenauen Labels unerkannter Klassen anhand nur einer begrenzten Anzahl annotierter Bilder zu ermitteln. Die zentrale Herausforderung bei FSS besteht darin, die Labels von Abfragepixeln mithilfe von Klassenprototypen zu klassifizieren, die aus wenigen annotierten Support-Beispielen gelernt wurden. Bisherige Ansätze zur FSS haben typischerweise unabhängig von den Support-Bildern klassenspezifische Deskriptoren gelernt, wodurch reichhaltige kontextuelle Informationen sowie wechselseitige Abhängigkeiten zwischen Support- und Query-Features ignoriert wurden. Um diese Einschränkung zu überwinden, schlagen wir eine gemeinsame Lernmethode namens Masked Cross-Image Encoding (MCE) vor, die darauf abzielt, gemeinsame visuelle Eigenschaften zu erfassen, die Objektdetails beschreiben, sowie bidirektionale Inter-Bild-Abhängigkeiten zu lernen, die die Merkmalsinteraktion verbessern. MCE ist mehr als nur ein Modul zur Verfeinerung visueller Darstellungen; es berücksichtigt zudem wechselseitige Abhängigkeiten zwischen Bildern und implizite Anleitungen. Experimente auf den FSS-Benchmark-Datensätzen PASCAL-$5^i$ und COCO-$20^i$ belegen die herausragenden Fähigkeiten des vorgeschlagenen Ansatzes im Bereich Meta-Lernen.