12일 전
DocUNet: 스택형 U-Net을 활용한 문서 이미지 왜곡 보정
{Jue Wang, Xue Bai, Zhixin Shu, Ke Ma, Dimitris Samaras}

초록
문서 이미지를 캡처하는 것은 모바일 카메라의 보편성 덕분에 물리적 문서를 디지털화하고 기록하는 일반적인 방법이다. 텍스트 인식을 용이하게 하기 위해, 실제 문서 시트가 접히거나 곡면을 이룰 경우 이를 디지털적으로 평탄화하는 것이 바람직하다. 본 논문에서는 이 목적을 달성하기 위한 최초의 학습 기반 방법을 제안한다. 우리는 왜곡된 이미지에서 정규화된 버전으로의 전방 매핑을 직접 예측할 수 있도록 중간 감독(middle supervision)을 갖춘 스택형 U-Net을 제안한다. 대규모의 실제 데이터셋에서 정답 왜곡 정보를 확보하는 것은 어려우므로, 왜곡되지 않은 문서 이미지를 왜곡하여 약 10만 장의 합성 데이터셋을 구축하였다. 이 네트워크는 다양한 데이터 증강 기법을 적용하여 이 데이터셋에서 학습되며, 일반화 능력을 향상시킨다. 또한 다양한 실제 환경 조건을 포괄하는 종합적인 벤치마크를 구축하였다. 제안된 모델은 이 벤치마크를 기반으로 정량적·정성적으로 평가되었으며, 기존의 비학습 기반 방법들과의 비교를 통해 성능을 검증하였다.