11일 전

RectiNet-v2: 문서 이미지 왜곡 보정을 위한 스택형 네트워크 아키텍처

Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri
RectiNet-v2: 문서 이미지 왜곡 보정을 위한 스택형 네트워크 아키텍처
초록

모바일 및 휴대용 카메라의 등장으로 문서 이미지는 거의 모든 분야로 확산되었다. 문서 인식 알고리즘에 의해 정확히 해석될 수 있도록, 이러한 이미지에서 원근 왜곡과 접힘 현상을 제거하기 위한 왜곡 보정(de-warping)이 필수적이다. 이를 위해 본 연구에서는 왜곡된 문서 이미지를 입력으로 받아 왜곡이 없는 문서 이미지를 생성할 수 있는 엔드투엔드 CNN 아키텍처를 제안한다. 자연적인 왜곡 문서 이미지 데이터의 부족을 보완하기 위해, 본 모델은 합성적으로 시뮬레이션된 왜곡 문서 이미지 데이터를 기반으로 훈련한다. 제안하는 방법은 다음과 같은 세 가지 측면에서 새로운 특징을 지닌다. 첫째, 그리드 좌표의 혼합을 방지하기 위해 공유 가중치(shared weights)를 갖는 이분기(decomposed) 디코더를 사용한다. 둘째, U-Net의 스킵 연결(skip connections)에 잔차 네트워크(residual networks)를 도입하여 모델 내 다양한 수용 필드(receptive fields)에서의 데이터 흐름을 원활히 한다. 셋째, 문서 이미지의 구조 및 선 수준의 세부 정보에 주목하도록 돕기 위해 게이트(gated) 네트워크를 활용한다. 제안한 방법은 이 분야의 기준 데이터셋인 DocUNet 데이터셋을 기반으로 평가되었으며, 최신 기술 수준의 다른 방법들과 경쟁 가능한 성능을 달성하였다.

RectiNet-v2: 문서 이미지 왜곡 보정을 위한 스택형 네트워크 아키텍처 | 최신 연구 논문 | HyperAI초신경