Masked Diffusion als selbstüberwachter Repräsentationslerner

Denoising-Diffusions-wahrscheinliche Modelle haben in jüngster Zeit eine state-of-the-art generative Leistung gezeigt und als leistungsstarke Lerner von Pixel-Ebene-Darstellungen eingesetzt werden. In diesem Artikel analysieren wir die inhärente Verflechtung zwischen der generativen Fähigkeit und der Fähigkeit zur Darstellungslernung in Diffusionsmodellen. Wir stellen das masked diffusion model (MDM) vor, einen skalierbaren, selbstüberwachten Darstellungslerner für semantische Segmentierung, der die herkömmliche additive Gaussche Rauschkomponente traditioneller Diffusionsmodelle durch eine Maskierungsmechanik ersetzt. Unser vorgeschlagener Ansatz übertrifft überzeugend vorherige Benchmarks und zeigt bemerkenswerte Fortschritte sowohl bei medizinischen als auch bei natürlichen Bildern in semantischen Segmentierungsaufgaben, insbesondere in Few-Shot-Szenarien.