16일 전

장면 텍스트 망원경: 텍스트 중심의 장면 이미지 초해상도 복원

{xiangyang xue, Bin Li, Jingye Chen}
장면 텍스트 망원경: 텍스트 중심의 장면 이미지 초해상도 복원
초록

이미지 초해상도 복원은 일반적으로 장면 텍스트 인식의 전처리 절차로 간주되며, 저해상도 텍스트 이미지로부터 현실적인 특징을 복원하는 것을 목표로 한다. 이 작업은 텍스트의 형태, 폰트, 배경 등 다양한 변동성이 크기 때문에 항상 도전적인 과제로 남아왔다. 그러나 기존의 대부분의 방법들은 장면 텍스트 이미지 처리에 일반적인 초해상도 복원 프레임워크를 사용하면서, 텍스트 특유의 특성—예를 들어 텍스트 수준의 레이아웃이나 문자 수준의 세부 정보—를 간과하고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 텍스트 중심의 초해상도 복원 프레임워크인 Scene Text Telescope(STT)를 제안한다. 텍스트 수준의 레이아웃 측면에서, 임의의 방향성을 가진 텍스트에 대해 강건하게 대응할 수 있도록 자기 주의(Self-Attention) 모듈을 포함한 Transformer 기반 초해상도 네트워크(TBSRN)를 제안한다. 문자 수준의 세부 정보 측면에서는 각 문자의 위치와 내용을 강조하기 위해 위치 인지 모듈(Position-Aware Module)과 콘텐츠 인지 모듈(Content-Aware Module)을 도입한다. 저해상도 조건에서 일부 문자가 구분하기 어려운 현상을 관찰한 결과, 이를 해결하기 위해 가중치가 부여된 크로스 엔트로피 손실(Weighted Cross-Entropy Loss)을 활용한다. TextZoom 및 여러 장면 텍스트 인식 벤치마크에서 사전 학습된 인식 모델을 활용한 텍스트 인식 실험과 이미지 품질 평가를 통해 광범위한 실험을 수행하였다. 실험 결과, 제안한 STT가 실제로 텍스트 중심의 초해상도 이미지를 생성하며, 기존 방법들에 비해 인식 정확도 측면에서 우수한 성능을 보임을 확인할 수 있었다.

장면 텍스트 망원경: 텍스트 중심의 장면 이미지 초해상도 복원 | 최신 연구 논문 | HyperAI초신경