시각적 의미는 장면 텍스트 인식에서 텍스트 추론을 더 효과적으로 가능하게 한다

기존의 장면 텍스트 인식(STR) 기법들은 보통 시각적 인식(VR) 모델이 예측한 1차원 문자열의 공동 확률을 최적화하기 위해 언어 모델을 사용하지만, 이 방법들은 문자 인스턴스 내부 및 간의 시각적 의미에 대한 2차원 공간적 맥락을 무시하게 되어, 임의의 형태를 가진 장면 텍스트에 대한 일반화 성능이 낮다. 이러한 문제를 해결하기 위해 본 논문에서는 시각적 의미를 기반으로 한 텍스트 추론을 처음으로 시도한다. 기술적으로, VR 모델이 예측한 문자 세그멘테이션 맵을 바탕으로 각 인스턴스에 대해 하위 그래프를 구성하며, 노드는 해당 인스턴스 내의 픽셀을 나타내고, 공간적 유사도에 기반하여 노드 간에 간선을 추가한다. 이후 이러한 하위 그래프들은 루트 노드를 통해 순차적으로 연결되어 완전한 그래프로 병합된다. 이 그래프 기반 구조를 바탕으로 교차 엔트로피 손실을 통해 학습되는 그래프 컨볼루션 네트워크를 위한 텍스트 추론(GTR)을 제안한다. GTR는 대표적인 STR 모델에 간편하게 통합되어 더 나은 텍스트 추론 능력을 통해 성능을 향상시킬 수 있다. 구체적으로, 세그멘테이션 기반 STR 베이스라인 모델의 언어 모델과 병렬로 GTR를 구성함으로써 S-GTR 모델을 구축하였으며, 이는 상호 학습을 통해 시각-언어적 보완성을 효과적으로 활용할 수 있다. S-GTR는 여섯 개의 도전적인 STR 벤치마크에서 새로운 최고 성능을 기록하며, 다국어 데이터셋에 대해서도 우수한 일반화 능력을 보였다. 코드는 https://github.com/adeline-cs/GTR 에서 공개되어 있다.