8일 전

ABINet++: 장면 텍스트 스포팅을 위한 자율적, 양방향적 및 반복적 언어 모델링

Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang
ABINet++: 장면 텍스트 스포팅을 위한 자율적, 양방향적 및 반복적 언어 모델링
초록

장면 텍스트 스포팅(scene text spotting)은 다양한 응용 분야에서의 중요성으로 인해 컴퓨터 비전 분야에서 매우 중요한 연구 주제로 여겨지고 있다. 최근의 방법들은 순수한 시각적 분류에 그치지 않고, 도전적인 인식 과제를 해결하기 위해 언어 지식을 도입하려는 시도를 하고 있다. 그러나 엔드투엔드 딥 네트워크 내에서 언어 규칙을 효과적으로 모델링하는 방법은 여전히 연구 과제로 남아 있다. 본 논문에서는 언어 모델의 제한된 표현 능력이 1) 암묵적인 언어 모델링, 2) 단방향 특징 표현, 3) 노이즈 입력을 받는 언어 모델이라는 세 가지 요인에서 비롯된다고 주장하며, 이를 해결하기 위해 자율적(auto), 양방향(bidirectional), 반복적(iterative)인 ABINet++을 제안한다. 첫째, 자율적이라는 개념은 인식기(recognizer)를 시각 모델과 언어 모델로 분리하고, 두 모델 간의 기울기 흐름을 차단함으로써 언어 모델링을 명시적으로 강제하는 방식을 제안한다. 둘째, 양방향 특징 표현을 기반으로 한 새로운 양방향 클로즈 네트워크(Bidirectional Cloze Network, BCN)를 언어 모델로 제안한다. 셋째, 언어 모델에 대해 반복적 보정(iterative correction) 방식을 도입함으로써 노이즈 입력의 영향을 효과적으로 완화한다. 마지막으로, 장문 텍스트 인식에서 ABINet++의 성능을 더욱 향상시키기 위해 U-Net 내부에 Transformer 유닛을 통합하여 수평 방향 특징을 집계하고, 문자 순서와 내용을 통합하여 문자 특징에 정밀하게 주의를 기울일 수 있는 위치 및 콘텐츠 주의 모듈(position and content attention module)을 설계하였다. ABINet++은 장면 텍스트 인식 및 장면 텍스트 스포팅 기준 평가에서 최고 성능을 기록하며, 특히 저품질 이미지 환경에서 본 방법의 우수성을 일관되게 입증하였다. 또한 영어 및 중국어를 포함한 광범위한 실험 결과는, 본 연구에서 제안한 언어 모델링 기법을 포함하는 텍스트 스포터가 일반적으로 사용되는 어텐션 기반 인식기 대비 정확도와 속도 모두에서 상당한 성능 향상을 달성함을 입증하였다.

ABINet++: 장면 텍스트 스포팅을 위한 자율적, 양방향적 및 반복적 언어 모델링 | 최신 연구 논문 | HyperAI초신경