15일 전

오리가미넷: 전개를 학습함으로써 약한 감독, 세그멘테이션 불필요, 단일 단계, 전체 페이지 텍스트 인식

Mohamed Yousef, Tom E. Bishop
오리가미넷: 전개를 학습함으로써 약한 감독, 세그멘테이션 불필요, 단일 단계, 전체 페이지 텍스트 인식
초록

텍스트 인식은 다양한 관련 과제를 수반하는 주요 컴퓨터 비전 과제 중 하나이다. 그 중 전통적인 과제 중 하나는 텍스트 인식과 세그멘테이션 간의 결합된 성격이다. 이 문제는 지난 수십 년에 걸쳐 점진적으로 해결되어 왔으며, 초기에는 세그멘테이션 기반 인식에서 시작하여, 더 정확하고 데이터 어노테이션 비용이 훨씬 낮은 세그멘테이션 자유형 접근법으로 발전해왔다. 본 연구는 세그멘테이션 자유형 단일 라인 인식에서 한 걸음 나아가, 세그멘테이션 자유형 다중 라인/전면 페이지 인식으로 확장한다. 우리는 기존의 CTC 학습된 완전 컨볼루션형 단일 라인 텍스트 인식기의 성능을 보완할 수 있는 새로운 간단한 신경망 모듈인 \textbf{OrigamiNet}을 제안한다. 이 모듈은 2차원 입력 신호를 1차원으로 적절히 압축하면서 정보 손실 없이 처리할 수 있도록 충분한 공간적 능력을 모델에 제공함으로써, 기존 모델을 다중 라인 인식 모델로 변환할 수 있다. 수정된 네트워크는 기존의 간단한 학습 절차를 그대로 사용하고, 오직 \textbf{세그멘테이션되지 않은} 이미지와 텍스트 쌍만으로도 훈련이 가능하다. 또한, 모델이 학습 과정에서 암묵적인 라인 세그멘테이션을 정확히 학습한다는 것을 보여주는 해석 가능성 실험을 수행하였다. 수작업으로 작성된 텍스트 인식 기준인 IAM 및 ICDAR 2017 HTR 벤치마크에서 기존 모든 방법을 능가하는 최고 수준의 문자 오류율을 달성하였다. 특히 IAM 데이터셋에서는 훈련 시 정확한 위치 정보를 사용하는 단일 라인 방법조차도 넘어서는 성능을 보였다. 본 연구의 코드는 \url{https://github.com/IntuitionMachines/OrigamiNet}에서 공개되어 있다.

오리가미넷: 전개를 학습함으로써 약한 감독, 세그멘테이션 불필요, 단일 단계, 전체 페이지 텍스트 인식 | 최신 연구 논문 | HyperAI초신경