다시 한번 돌아보기: 정확하고 강건한 장면 텍스트 인식을 위한 이중 병렬 주의망
현재 장면 텍스트 인식 분야에서는 유연성과 효율성 덕분에 병렬 분리형 인코더-디코더(PDED) 아키텍처를 활용하는 것이 일반적인 추세이다. 그러나 이와 같은 아키텍처에서 사용되는 병렬 위치 주의 모듈(PPAM) 내에서 쿼리와 키 간의 정보 내용이 일관되지 않는 문제(쿼리: 위치 정보, 키: 맥락 정보 및 위치 정보)로 인해, 어려운 샘플(예: 흐릿한 텍스트, 비정형 텍스트, 저품질 이미지 등)을 처리할 경우 시각적 불일치 현상이 발생하기 쉽다. 이러한 문제를 해결하기 위해 본 논문에서는 새로운 병렬 맥락 주의 모듈(PCAM)을 기존 PPAM에 계단형으로 연결한 이중 병렬 주의 네트워크(DPAN)를 제안한다. PCAM은 언어학적 맥락 정보를 활용하여 쿼리와 키 간의 정보 불일치를 보완함으로써, 주의 메커니즘의 정확도를 향상시킨다. 구체적으로 PCAM에서는 PPAM에서 출력된 시각적 특징을 입력으로 받아, 양방향 언어 모델을 사용하여 언어적 맥락 정보를 통합하여 쿼리를 생성한다. 이를 통해 PCAM 내에서 쿼리와 키의 정보 내용이 일관되게 유지되며, 더 정밀한 시각적 단서를 생성함으로써 전체 PDED 아키텍처의 정확성과 견고성을 향상시킬 수 있다. 실험 결과는 제안된 PCAM의 효과를 입증하며, 주의 메커니즘 내에서 쿼리와 키 간의 정보 일관성을 유지하는 것이 필수적임을 보여준다. 정형 텍스트와 비정형 텍스트를 포함한 6개의 벤치마크에서 DPAN은 기존 최고 성능 모델들을 크게 앞서며, 새로운 최고 성능(SOTA)을 달성하였다. 코드는 https://github.com/Jackandrome/DPAN 에 공개되어 있다.