Textbewusste Bildrestauration mit Diffusionsmodellen

Die Bildrestauration zielt darauf ab, verschlechterte Bilder wiederherzustellen. Bestehende diffusionsbasierte Restaurationsmethoden, obwohl sie bei der Restauration natürlicher Bilder großes Erfolg verzeichnen, haben oft Schwierigkeiten, textuelle Bereiche in verschlechterten Bildern treu zu rekonstruieren. Diese Methoden erzeugen häufig plausibel aber falsche textähnliche Muster, ein Phänomen, das wir als Textbildhalluzination bezeichnen. In dieser Arbeit stellen wir die Textbewusste Bildrestauration (TAIR) vor, eine neue Restaurationsaufgabe, die die gleichzeitige Wiederherstellung visueller Inhalte und textueller Genauigkeit erfordert. Um diese Aufgabe anzugehen, präsentieren wir SA-Text, einen umfangreichen Benchmark mit 100.000 hochwertigen Szenenbildern, die dicht mit vielfältigen und komplexen Textinstanzen annotiert sind. Darüber hinaus schlagen wir einen mehrfach aufgeteilten Diffusionsrahmen vor, der als TeReDiff bezeichnet wird und interne Merkmale von Diffusionsmodellen in ein Texterkennungsmodul integriert. Dies ermöglicht es beiden Komponenten, von gemeinsamen Trainingsprozessen zu profitieren. Dies führt zur Extraktion reicher Textrepräsentationen, die in nachfolgenden Entrauschungsschritten als Anregungen verwendet werden. Ausführliche Experimente zeigen, dass unser Ansatz konsistent bessere Ergebnisse als state-of-the-art-Restaurationsmethoden erzielt und signifikante Verbesserungen in der Texterkennungsgenauigkeit erreicht. Siehe unsere Projektseite: https://cvlab-kaist.github.io/TAIR/