Prototypen-Mischungsmodelle für Few-shot-Semantische Segmentierung

Few-shot-Segmentierung ist herausfordernd, da Objekte in den Support- und Query-Bildern erheblich in Erscheinungsbild und Pose voneinander abweichen können. Die Verwendung eines einzelnen Prototyps, der direkt aus dem Support-Bild gewonnen wird, um das Query-Bild zu segmentieren, führt zu semantischer Mehrdeutigkeit. In diesem Paper stellen wir Prototypen-Mischungsmodelle (Prototype Mixture Models, PMMs) vor, die verschiedene Bildregionen mit mehreren Prototypen verknüpfen, um eine prototypenbasierte semantische Repräsentation zu fördern. Durch einen Erwartungswert-Maximierungsalgorithmus (Expectation-Maximization, EM) geschätzt, integrieren PMMs reichhaltige kanalweise und räumliche Semantik aus begrenzten Support-Bildern. Als Repräsentationen sowie Klassifikatoren eingesetzt, nutzen PMMs die Semantik in doppelter Weise voll aus: Sie aktivieren Objekte im Query-Bild und unterdrücken gleichzeitig Hintergrundregionen. Umfangreiche Experimente auf den Datensätzen Pascal VOC und MS-COCO zeigen, dass PMMs die derzeitigen State-of-the-Art-Methoden signifikant übertrifft. Insbesondere verbessern PMMs die 5-Shot-Segmentierung auf MS-COCO um bis zu 5,82 %, und zwar mit nur geringem Mehraufwand hinsichtlich Modellgröße und Inferenzgeschwindigkeit.