12일 전

DewarpNet: 스택형 3D 및 2D 회귀 네트워크를 이용한 단일 이미지 문서 왜곡 보정

{ Roy Shilkrot, Dimitris Samaras, Zhixin Shu, Ke Ma, Sagnik Das}
DewarpNet: 스택형 3D 및 2D 회귀 네트워크를 이용한 단일 이미지 문서 왜곡 보정
초록

지금은 구조화되지 않은 환경에서 핸드헬드 장치를 이용해 문서 이미지를 촬영하는 것이 일반적인 현상이다. 그러나 이러한 '일상적인' 문서 사진은 보통 자동 정보 추출에 적합하지 않으며, 주로 문서 용지의 물리적 왜곡과 다양한 카메라 위치, 조명 조건 등으로 인해 발생한다. 본 연구에서는 단일 이미지로부터 문서 이미지의 왜곡을 보정하는 딥러닝 기반 접근법인 DewarpNet을 제안한다. 우리의 통찰은 문서 용지의 3차원 기하학적 구조가 텍스처의 왜곡을 결정하는 것뿐만 아니라 조명 효과 역시 유도한다는 점에 있다. 따라서 본 연구의 핵심은 엔드투엔드 파이프라인에서 문서 용지의 3차원 형태를 명시적으로 모델링하는 데에 있다. 또한, 지금까지 가장 크고 종합적인 문서 이미지 보정을 위한 데이터셋인 Doc3D를 기여하였다. 이 데이터셋은 3차원 형태, 표면 법선, UV 매핑, 알베도 이미지 등 다양한 지정 참조(annotation)를 포함하고 있다. Doc3D를 기반으로 훈련한 DewarpNet은 광범위한 정성적 및 정량적 평가를 통해 최신 기술 수준의 성능을 입증하였다. 또한, 촬영된 문서 이미지에 대해 OCR 성능을 크게 향상시켜 평균적으로 문자 오류율(Character Error Rate)을 42% 감소시켰다. 코드와 데이터셋은 모두 공개되었다.

DewarpNet: 스택형 3D 및 2D 회귀 네트워크를 이용한 단일 이미지 문서 왜곡 보정 | 최신 연구 논문 | HyperAI초신경