Focal Frequency Loss für die Bildrekonstruktion und -synthese

Bildrekonstruktion und -synthese haben dank der Entwicklung generativer Modelle beachtliche Fortschritte erzielt. Dennoch können weiterhin Diskrepanzen zwischen echten und generierten Bildern bestehen, insbesondere im Frequenzbereich. In dieser Studie zeigen wir, dass die Verengung dieser Lücken im Frequenzbereich die Qualität der Bildrekonstruktion und -synthese weiter verbessern kann. Wir stellen eine neuartige fokussierte Frequenzverlustfunktion vor, die es dem Modell ermöglicht, sich adaptiv auf jene Frequenzkomponenten zu konzentrieren, die schwer zu synthetisieren sind, indem sie leichter zu erzeugende Komponenten gewichtsmäßig herabsetzt. Diese Zielfunktion ergänzt bestehende räumliche Verlustfunktionen und bietet eine starke Widerstandsfähigkeit gegenüber dem Verlust wichtiger Frequenzinformationen, der durch die inhärente Bias von neuronalen Netzwerken verursacht werden kann. Wir demonstrieren die Vielseitigkeit und Wirksamkeit der fokussierten Frequenzverlustfunktion, um gängige Modelle wie VAE, pix2pix und SPADE sowohl in Bezug auf die wahrnehmbare Qualität als auch in quantitativen Leistungsmaßen zu verbessern. Darüber hinaus zeigen wir ihr Potenzial für StyleGAN2.