11일 전

스타넷: 장면 텍스트 인식을 위한 공간 주의력 잔차 네트워크.

{and J. Han., K.-Y. K. Wong, W. Liu, Z. Su, C. Chen}
초록

본 논문에서는 장면 텍스트 인식을 위한 새로운 스파티얼 어텐션 리지듀 네트워크(SpaTial Attention Residue Network, STAR-Net)를 제안한다. 제안하는 STAR-Net은 자연 이미지 내 텍스트의 왜곡을 제거하기 위해 스파티얼 트랜스포머를 활용하는 스파티얼 어텐션 메커니즘을 내장하고 있다. 이는 후속 특징 추출기가 왜곡에 휘둘리지 않고 보정된 텍스트 영역에 집중할 수 있도록 한다. 또한, 매우 깊은 특징 추출기를 구축하기 위해 리지듀 컨볼루션 블록을 활용하여, 세밀한 텍스트 인식 작업에서 구분력 있는 텍스트 특징을 성공적으로 추출하는 데 필수적인 구조를 제공한다. 스파티얼 어텐션 메커니즘과 리지듀 컨볼루션 블록을 결합함으로써, 본 STAR-Net은 장면 텍스트 인식을 위한 가장 깊은 엔드투엔드 학습 가능한 신경망이 되었다. 제안된 방법은 다섯 개의 공개 벤치마크 데이터셋에서 실험을 수행하여 검증되었으며, 실험 결과는 왜곡이 거의 없는 장면 텍스트에 대해 최신 기술과 유사한 성능을 달성함과 동시에, 상당한 왜곡을 포함한 장면 텍스트에 대해서는 기존 방법들을 모두 상회함을 보였다.

스타넷: 장면 텍스트 인식을 위한 공간 주의력 잔차 네트워크. | 최신 연구 논문 | HyperAI초신경