HyperAIHyperAI
vor 12 Tagen

DifFSS: Diffusionsmodell für Few-Shot-Semantische Segmentierung

Weimin Tan, Siyuan Chen, Bo Yan
DifFSS: Diffusionsmodell für Few-Shot-Semantische Segmentierung
Abstract

Diffusionsmodelle haben hervorragende Leistungen bei der Bildgenerierung gezeigt. Obwohl verschiedene Few-Shot-Semantische Segmentierungs-(FSS-)Modelle mit unterschiedlichen Netzwerkarchitekturen vorgeschlagen wurden, hat sich die Leistungssteigerung auf einem Plateau eingependelt. In dieser Arbeit präsentieren wir die erste Studie, die Diffusionsmodelle für die FSS-Aufgabe nutzt, und nennen sie DifFSS. DifFSS stellt ein neuartiges FSS-Paradigma dar, das die Leistung bestehender State-of-the-Art-FSS-Modelle signifikant verbessert, ohne deren Netzwerkstruktur zu verändern. Konkret nutzen wir die starke Generierungsfähigkeit von Diffusionsmodellen, um vielfältige Hilfsunterstützungsbilder zu erzeugen, wobei die semantische Maske, die Skizze oder die weiche HED-Grenzlinie des Support-Bildes als Steuerbedingungen dienen. Dieser Generierungsprozess simuliert die Variabilität innerhalb der Klasse des Query-Bildes, beispielsweise in Bezug auf Farbe, Texturvariation, Beleuchtung usw. Dadurch können FSS-Modelle auf eine vielfältigere Palette an Support-Bildern zurückgreifen, was zu robusteren Repräsentationen führt und somit eine konsistente Verbesserung der Segmentierungsergebnisse ermöglicht. Umfassende Experimente an drei öffentlich verfügbaren Datensätzen, basierend auf bereits fortschrittlichen FSS-Modellen, belegen die Wirksamkeit des Diffusionsmodells für die FSS-Aufgabe. Darüber hinaus untersuchen wir detailliert den Einfluss verschiedener Eingabeeinstellungen des Diffusionsmodells auf die Segmentierungsergebnisse. Wir hoffen, dass dieses völlig neue Paradigma Anregungen für zukünftige Forschung zu FSS-Aufgaben im Kontext künstlich generierter Inhalte liefert. Der Quellcode ist unter https://github.com/TrinitialChan/DifFSS verfügbar.