16일 전

CDistNet: 강건한 텍스트 인식을 위한 다중 도메인 문자 거리 인지

Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
CDistNet: 강건한 텍스트 인식을 위한 다중 도메인 문자 거리 인지
초록

기존의 Transformer 기반 인코더-디코더 프레임워크는 시각적 도메인과 의미적 도메인에서의 인식 정보를 자연스럽게 통합할 수 있다는 점에서 장면 텍스트 인식 분야에서 점점 더 인기를 끌고 있다. 그러나 최근 연구들은 이러한 두 가지 종류의 정보가 항상 정확히 정렬되지는 않으며, 특히 드문 형태를 가진 어려운 텍스트에서는 특징과 문자 사이에 일치하지 않는 현상이 발생할 수 있음을 지적하고 있다. 이로 인해 문자 위치와 같은 제약 조건이 도입되어 문제를 완화하려는 시도가 이루어졌지만, 시각적 정보와 의미적 정보는 여전히 별도로 모델링되며, 그 연결 또한 약하게 유지되고 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 시각적 정보와 의미적 정보를 유기적으로 연결하는 새로운 모듈인 다도메인 문자 거리 인지(Multi-Domain Character Distance Perception, MDCDP)를 제안한다. MDCDP는 위치 임베딩을 활용하여 크로스 어텐션 메커니즘을 통해 시각적 특징과 의미적 특징을 동시에 쿼리하며, 두 종류의 정보를 위치 브랜치에 통합함으로써, 문자 간 간격과 방향 변화, 문자의 의미적 유사성, 그리고 두 도메인 간 정보를 연결하는 핵심적 단서를 잘 인지하는 콘텐츠 인식형 임베딩을 생성한다. 이러한 통합된 정보는 다도메인 문자 거리(multi-domain character distance)로 요약된다. 본 논문은 이러한 MDCDP 모듈을 반복적으로 스택하여 점진적으로 정밀한 거리 모델링을 가능하게 하는 CDistNet을 개발하였다. 이로 인해 다양한 인식 어려움이 존재하더라도 특징과 문자 간의 정확한 정렬이 가능해진다. CDistNet은 10개의 도전적인 공개 데이터셋과 본 연구자가 자체적으로 생성한 두 가지 증강 데이터셋에서 검증되었으며, 실험 결과 CDistNet이 매우 경쟁력 있는 성능을 보였다. 특히 표준 벤치마크에서는 최상위 성능을 기록하였으며, 심각한 텍스트 왜곡, 낮은 언어적 지원, 드문 문자 배치를 포함한 실제 및 증강 데이터셋에서 최근 주목받는 다른 방법들보다 뚜렷한 성능 우위를 보였다. 코드는 https://github.com/simplify23/CDistNet 에서 공개되어 있다.

CDistNet: 강건한 텍스트 인식을 위한 다중 도메인 문자 거리 인지 | 최신 연구 논문 | HyperAI초신경