16일 전
의미 추론 네트워크를 활용한 정확한 장면 텍스트 인식 연구
Deli Yu, Xuan Li, Chengquan Zhang, Junyu Han, Jingtuo Liu, Errui Ding

초록
장면 텍스트 이미지에는 시각적 텍스처와 의미 정보라는 두 가지 수준의 내용이 포함되어 있다. 최근 몇 년간 기존의 장면 텍스트 인식 방법들은 큰 진전을 이루었지만, 텍스트 인식을 보조하기 위해 의미 정보를 탐색하는 연구는 여전히 덜 주목받고 있으며, 의미 정보를 암묵적으로 모델링하기 위해 오직 RNN 유사 구조만이 탐구되어 왔다. 그러나 우리는 RNN 기반 방법이 시간에 따라 의존적인 디코딩 방식과 의미적 맥락의 단방향 직렬 전달 방식과 같은 명백한 한계를 지닌다는 점을 관찰한다. 이러한 한계는 의미 정보의 활용도를 크게 제한하고 계산 효율성에도 부정적인 영향을 미친다. 이러한 문제를 완화하기 위해, 전역적 의미 추론 모듈(GSRM)을 도입하여 다방향 병렬 전달 방식을 통해 전역적 의미 맥락을 포착하는 새로운 엔드 투 엔드 학습 가능한 프레임워크인 의미 추론 네트워크(SRN)를 제안한다. 정규 텍스트, 비정규 텍스트, 비라틴어 장문 텍스트를 포함한 7개의 공개 벤치마크에서 최첨단 성능을 달성함으로써 제안된 방법의 효과성과 강건성을 입증하였다. 또한 SRN은 RNN 기반 방법에 비해 뛰어난 속도 성능을 보이며, 실용적 적용에서의 가치를 입증하고 있다.