12일 전

DocUNet: 스택형 U-Net을 활용한 문서 이미지 왜곡 보정

{Jue Wang, Xue Bai, Zhixin Shu, Ke Ma, Dimitris Samaras}
DocUNet: 스택형 U-Net을 활용한 문서 이미지 왜곡 보정
초록

문서 이미지를 캡처하는 것은 모바일 카메라의 보편성 덕분에 물리적 문서를 디지털화하고 기록하는 일반적인 방법이다. 텍스트 인식을 용이하게 하기 위해, 실제 문서 시트가 접히거나 곡면을 이룰 경우 이를 디지털적으로 평탄화하는 것이 바람직하다. 본 논문에서는 이 목적을 달성하기 위한 최초의 학습 기반 방법을 제안한다. 우리는 왜곡된 이미지에서 정규화된 버전으로의 전방 매핑을 직접 예측할 수 있도록 중간 감독(middle supervision)을 갖춘 스택형 U-Net을 제안한다. 대규모의 실제 데이터셋에서 정답 왜곡 정보를 확보하는 것은 어려우므로, 왜곡되지 않은 문서 이미지를 왜곡하여 약 10만 장의 합성 데이터셋을 구축하였다. 이 네트워크는 다양한 데이터 증강 기법을 적용하여 이 데이터셋에서 학습되며, 일반화 능력을 향상시킨다. 또한 다양한 실제 환경 조건을 포괄하는 종합적인 벤치마크를 구축하였다. 제안된 모델은 이 벤치마크를 기반으로 정량적·정성적으로 평가되었으며, 기존의 비학습 기반 방법들과의 비교를 통해 성능을 검증하였다.

DocUNet: 스택형 U-Net을 활용한 문서 이미지 왜곡 보정 | 최신 연구 논문 | HyperAI초신경