Command Palette
Search for a command to run...
텍스트 인식 이미지 복원을 위한 확산 모델
텍스트 인식 이미지 복원을 위한 확산 모델
Jaewon Min Jin Hyeon Kim Paul Hyunbin Cho Jaeeun Lee Jihye Park Minkyu Park Sangpil Kim Hyunhee Park Seungryong Kim
초록
이미지 복원은 훼손된 이미지를 원래 상태로 회복하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서 큰 성공을 거두었음에도 불구하고, 훼손된 이미지의 텍스트 영역을 정확하게 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 실제와 유사하지만 잘못된 텍스트 패턴을 생성하는데, 이를 우리는 '텍스트-이미지 환각'이라고 지칭합니다. 본 논문에서는 시각적 콘텐츠와 텍스트 충실성을 동시에 회복해야 하는 새로운 복원 과제인 Text-Aware Image Restoration (TAIR)를 소개합니다. 이 과제를 해결하기 위해, 다양한이고 복잡한 텍스트 인스턴스로 밀집 주석화된 10만 장의 고품질 장면 이미지를 포함하는 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 확산 모델의 내부 특성을 텍스트 인식 모듈에 통합하여 공동 학습의 혜택을 받도록 설계된 다중 작업 확산 프레임워크인 TeReDiff를 제안합니다. 이는 풍부한 텍스트 표현을 추출할 수 있게 하며, 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험 결과는 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 특히 텍스트 인식 정확도에서 상당한 개선을 보임을 입증하였습니다. 프로젝트 페이지 참조: https://cvlab-kaist.github.io/TAIR/