Binäres Diffusions-Wahrscheinlichkeitsmodell

Wir stellen das Binäre Diffusionswahrscheinlichkeitsmodell (BDPM) vor, ein neues generatives Modell, das für binäre Datenrepräsentationen optimiert ist. Obwohl Denoising-Diffusionswahrscheinlichkeitsmodelle (DDPMs) in Aufgaben wie Bildsynthese und -restauration bemerkenswerte Erfolge erzielt haben, basieren traditionelle DDPMs auf kontinuierlichen Datenrepräsentationen und verwenden den mittleren quadratischen Fehler (MSE) als Trainingsverlustfunktion, wobei sie Gauß'sche Rauschmodelle anwenden, die möglicherweise nicht optimal für diskrete oder binäre Datenstrukturen sind. Das BDPM löst dieses Problem, indem es Bilder in Bitpläne zerlegt und XOR-basierte Rauschtransformationen verwendet, wobei das Denoising-Modell mit Hilfe des binären Kreuzentropieverlusts trainiert wird. Dieser Ansatz ermöglicht eine präzise Rauschkontrolle und rechnerisch effiziente Inferenz, was die Rechenkosten erheblich senkt und die Konvergenz des Modells verbessert. Bei der Bewertung von Bildrestaurationsaufgaben wie Super-Resolution, Inpainting und blindem Bildrestauration übertrifft das BDPM die besten bisher bekannten Methoden auf den Datensätzen FFHQ, CelebA und CelebA-HQ. Bemerkenswerterweise benötigt das BDPM weniger Inferenzschritte als herkömmliche DDPM-Modelle, um optimale Ergebnisse zu erzielen, was seine verbesserte Inferenzeffizienz unterstreicht.