Discord에서 논의하기

일 년 전

이미지 인페인팅

Jaewon Min Jin Hyeon Kim Paul Hyunbin Cho Jaeeun Lee Jihye Park Minkyu Park Sangpil Kim Hyunhee Park Seungryong Kim

초록

이미지 복원은 훼손된 이미지를 원래 상태로 회복하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서 큰 성공을 거두었음에도 불구하고, 훼손된 이미지의 텍스트 영역을 정확하게 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 실제와 유사하지만 잘못된 텍스트 패턴을 생성하는데, 이를 우리는 '텍스트-이미지 환각'이라고 지칭합니다. 본 논문에서는 시각적 콘텐츠와 텍스트 충실성을 동시에 회복해야 하는 새로운 복원 과제인 Text-Aware Image Restoration (TAIR)를 소개합니다. 이 과제를 해결하기 위해, 다양한이고 복잡한 텍스트 인스턴스로 밀집 주석화된 10만 장의 고품질 장면 이미지를 포함하는 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 확산 모델의 내부 특성을 텍스트 인식 모듈에 통합하여 공동 학습의 혜택을 받도록 설계된 다중 작업 확산 프레임워크인 TeReDiff를 제안합니다. 이는 풍부한 텍스트 표현을 추출할 수 있게 하며, 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험 결과는 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 특히 텍스트 인식 정확도에서 상당한 개선을 보임을 입증하였습니다. 프로젝트 페이지 참조: https://cvlab-kaist.github.io/TAIR/

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

이미지 인페인팅

Jaewon Min Jin Hyeon Kim Paul Hyunbin Cho Jaeeun Lee Jihye Park Minkyu Park Sangpil Kim Hyunhee Park Seungryong Kim

초록

이미지 복원은 훼손된 이미지를 원래 상태로 회복하는 것을 목표로 합니다. 그러나 기존의 확산 기반 복원 방법들은 자연 이미지 복원에서 큰 성공을 거두었음에도 불구하고, 훼손된 이미지의 텍스트 영역을 정확하게 재구성하는 데 어려움을 겪는 경우가 많습니다. 이러한 방법들은 종종 실제와 유사하지만 잘못된 텍스트 패턴을 생성하는데, 이를 우리는 '텍스트-이미지 환각'이라고 지칭합니다. 본 논문에서는 시각적 콘텐츠와 텍스트 충실성을 동시에 회복해야 하는 새로운 복원 과제인 Text-Aware Image Restoration (TAIR)를 소개합니다. 이 과제를 해결하기 위해, 다양한이고 복잡한 텍스트 인스턴스로 밀집 주석화된 10만 장의 고품질 장면 이미지를 포함하는 대규모 벤치마크인 SA-Text를 제시합니다. 또한, 확산 모델의 내부 특성을 텍스트 인식 모듈에 통합하여 공동 학습의 혜택을 받도록 설계된 다중 작업 확산 프레임워크인 TeReDiff를 제안합니다. 이는 풍부한 텍스트 표현을 추출할 수 있게 하며, 후속 노이즈 제거 단계에서 프롬프트로 활용됩니다. 광범위한 실험 결과는 우리의 접근 방식이 최신 복원 방법들을 일관되게 능가하며, 특히 텍스트 인식 정확도에서 상당한 개선을 보임을 입증하였습니다. 프로젝트 페이지 참조: https://cvlab-kaist.github.io/TAIR/

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

텍스트 인식 이미지 복원을 위한 확산 모델 | 문서 | HyperAI초신경