15일 전

SAFL: 편향 손실을 갖는 자기주의 주의 장면 텍스트 인식기

Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung Nguyen, Phi Le Nguyen
SAFL: 편향 손실을 갖는 자기주의 주의 장면 텍스트 인식기
초록

최근 수십 년간, 다양한 응용 분야에서 중요한 역할을 하기 때문에 장면 텍스트 인식은 학계와 실제 사용자 모두로부터 전 세계적으로 주목받고 있다. 광학 문자 인식(Optical Character Recognition, OCR) 분야에서의 성과에도 불구하고, 왜곡이나 비정규적인 레이아웃과 같은 내재적 문제로 인해 장면 텍스트 인식은 여전히 도전 과제로 남아 있다. 기존의 대부분의 접근 방식은 주로 순환 신경망(RNN)이나 컨볼루션 신경망(CNN)을 활용하고 있다. 그러나 순환 신경망(RNN)은 순차적 계산으로 인해 학습 속도가 느리고, 기울기 소실(Vanishing Gradient) 또는 병목 현상(Bottleneck) 등의 문제에 직면하는 반면, CNN은 복잡성과 성능 사이에 균형을 맞추는 데 어려움을 겪는다. 본 논문에서는 이러한 기존 방법의 한계를 극복하기 위해, 포칼 손실(Focal Loss)을 도입한 자기주의(Self-Attention) 기반 신경망 모델인 SAFL을 제안한다. 음의 로그 가능성(Negative Log-Likelihood) 대신 포칼 손실을 사용함으로써 모델은 저주파 샘플 학습에 더 집중할 수 있다. 또한 왜곡되거나 비정규적인 텍스트를 처리하기 위해, 인식 네트워크에 입력하기 전에 텍스트를 정규화하기 위해 공간 변환 네트워크(Spatial Transformer Network, STN)를 활용한다. 제안된 모델의 성능을 7개의 기준 모델과 비교하기 위해 실험을 수행한 결과, 수치적 분석을 통해 본 모델이 가장 우수한 성능을 달성함을 확인하였다.

SAFL: 편향 손실을 갖는 자기주의 주의 장면 텍스트 인식기 | 최신 연구 논문 | HyperAI초신경