텍스트 인식 이미지 복원을 위한 확산 모델
Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim
발행일: 6/15/2025

초록
이미지 복원은 훼손된 이미지를 원래 상태로 회복하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서 큰 성공을 거두었음에도 불구하고, 훼손된 이미지의 텍스트 영역을 정확하게 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 실제와 유사하지만 잘못된 텍스트 패턴을 생성하는데, 이를 우리는 '텍스트-이미지 환각'이라고 지칭합니다. 본 논문에서는 시각적 콘텐츠와 텍스트 충실성을 동시에 회복해야 하는 새로운 복원 과제인 Text-Aware Image Restoration (TAIR)를 소개합니다. 이 과제를 해결하기 위해, 다양한이고 복잡한 텍스트 인스턴스로 밀집 주석화된 10만 장의 고품질 장면 이미지를 포함하는 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 확산 모델의 내부 특성을 텍스트 인식 모듈에 통합하여 공동 학습의 혜택을 받도록 설계된 다중 작업 확산 프레임워크인 TeReDiff를 제안합니다. 이는 풍부한 텍스트 표현을 추출할 수 있게 하며, 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험 결과는 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 특히 텍스트 인식 정확도에서 상당한 개선을 보임을 입증하였습니다. 프로젝트 페이지 참조: https://cvlab-kaist.github.io/TAIR/