11일 전

컨볼루셔널 문자 네트워크

Linjie Xing, Zhi Tian, Weilin Huang, Matthew R. Scott
컨볼루셔널 문자 네트워크
초록

최근 자연 이미지 내에서 텍스트 검출과 인식을 통합적으로 처리하기 위한 통합 프레임워크 개발에 있어 중요한 진전이 있었으나, 기존의 통합 모델들은 주로 ROI 풀링을 포함하는 이단계(두 단계) 아키텍처에 기반하여 구축되어 있어, 인식 작업 성능에 악영향을 미치는 경우가 많았다. 본 연구에서는 단일 패스 내에서 두 가지 작업을 동시에 처리할 수 있는 일단계 모델인 컨볼루셔널 캐릭터 네트워크(이하 CharNet)를 제안한다. CharNet은 단어 및 문자의 경계 박스(bounding box)와 해당 문자 레이블을 직접 출력한다. 본 연구에서는 문자를 기본 단위로 사용함으로써, 기존의 RNN 기반 인식 브랜치와 함께 텍스트 검출을 공동 최적화하려는 접근 방식의 주요 한계를 극복할 수 있었다. 또한, 합성 데이터에서 학습한 문자 검출 능력을 실제 이미지로 전이할 수 있는 반복적 문자 검출 기법을 개발하였다. 이러한 기술적 개선을 통해 다중 방향성 및 곡선형 텍스트에 대해 신뢰성 있게 작동하는 간단하고 컴팩트하면서도 강력한 일단계 모델을 구현하였다. 제안한 CharNet은 세 가지 표준 벤치마크에서 평가되었으며, 특히 엔드투엔드 텍스트 인식 성능에서 기존 최고 수준의 접근 방식들[25, 24]에 비해 큰 성능 향상을 보였다. 예를 들어, ICDAR 2015에서는 일반 사전(generic lexicon)을 사용할 경우 65.33%에서 71.08%로, Total-Text에서는 54.0%에서 69.23%로 개선되었다. 코드는 다음 링크에서 공개되어 있다: https://github.com/MalongTech/research-charnet.

컨볼루셔널 문자 네트워크 | 최신 연구 논문 | HyperAI초신경