Freisetzen des Potenzials des Diffusionsmodells in der Few-shot-Semantische Segmentierung

Der Diffusionsmodell hat nicht nur beachtliche Erfolge im Bereich der Bildgenerierung erzielt, sondern zeigt auch großes Potenzial als effektive Vortrainingsmethode unter Verwendung von unbeschrifteten Daten. Ausgehend von dem umfangreichen Potenzial, das das Diffusionsmodell sowohl in Bezug auf semantische Korrespondenz als auch in der offenen Vokabular-Segmentierung offenbart hat, beginnen wir in unserer Arbeit mit der Untersuchung der Anwendung des Latent-Diffusionsmodells für Few-shot-Semantische Segmentierung. In jüngster Zeit ist die Few-shot-Semantische Segmentierung aufgrund der kontextuellen Lernfähigkeit großer Sprachmodelle zu Aufgaben der In-context-Segmentierung weiterentwickelt worden und hat sich zu einem zentralen Bestandteil der Bewertung allgemeiner Segmentierungsmodelle entwickelt. In diesem Kontext konzentrieren wir uns auf die Few-shot-Semantische Segmentierung und legen damit eine solide Grundlage für die zukünftige Entwicklung eines auf Diffusionsmodellen basierenden allgemeinen Segmentierungsmodells. Unserer ersten Aufmerksamkeit gilt der Frage, wie eine effektive Interaktion zwischen dem Abfragesbild und dem Support-Bild ermöglicht werden kann, wodurch wir innerhalb des Selbst-Attention-Rahmens eine KV-Fusionsmethode vorschlagen. Anschließend untersuchen wir detaillierter die Optimierung der Informationsintegration aus dem Support-Mask und reevaluieren gleichzeitig, wie eine sinnvolle Supervision aus der Abfrage-Maske bereitgestellt werden kann. Auf Basis dieser Analyse etablieren wir einen einfachen und effektiven Rahmen namens DiffewS, der den ursprünglichen generativen Rahmen des Latent-Diffusionsmodells weitgehend beibehält und die vortrainierten Priorwissen effizient nutzt. Experimentelle Ergebnisse zeigen, dass unsere Methode in mehreren Szenarien signifikant die bisherigen SOTA-Modelle übertrifft.