DiffusionInst: Diffusion-Modell für die Instanzsegmentierung

Diffusionsframeworks haben eine vergleichbare Leistungsfähigkeit mit früheren state-of-the-art-Bildgenerationsmodellen erreicht. Aufgrund ihres leistungsfähigen Rausch-zu-Bild-Entrauschungspipelines sind Forscher an Varianten dieser Ansätze für diskriminative Aufgaben interessiert. In dieser Arbeit wird DiffusionInst vorgestellt, ein neuartiges Framework, das Instanzen als instanzbewusste Filter darstellt und die Instanzsegmentierung als einen Rausch-zu-Filter-Entrauschungsprozess formuliert. Das Modell wird trainiert, die verrauschten Groundtruth-Daten ohne jeglichen induktiven Bias aus einem RPN umzukehren. Während der Inferenz nimmt es einen zufällig generierten Filter als Eingabe entgegen und erzeugt im einen Schritt oder in mehreren Schritten die Maske. Ausführliche experimentelle Ergebnisse auf COCO und LVIS zeigen, dass DiffusionInst gegenüber bestehenden Instanzsegmentierungsmodellen mit verschiedenen Backbone-Architekturen – wie ResNet und Swin-Transformer – konkurrenzfähige Leistung erzielt. Wir hoffen, dass unsere Arbeit als eine starke Baseline dienen kann, die die Entwicklung effizienterer Diffusionsframeworks für anspruchsvolle diskriminative Aufgaben anregen wird. Der Quellcode ist unter https://github.com/chenhaoxing/DiffusionInst verfügbar.