
초록
일반적인 텍스트 인식 방법은 인코더-디코더 구조를 기반으로 하며, 이 구조에서 인코더는 이미지에서 특징을 추출하고, 디코더는 이러한 특징을 바탕으로 인식된 텍스트를 생성합니다. 본 연구에서는 이러한 구조보다 간단하면서도 더 효과적인 텍스트 인식 방법인 디코더만 사용하는 트랜스포머(Decoder-only Transformer for Optical Character Recognition, DTrOCR)를 제안합니다. 이 방법은 대규모 코퍼스에서 사전 학습된 생성 언어 모델을 활용하기 위해 디코더만 사용하는 트랜스포머를 사용합니다. 우리는 자연어 처리에서 성공적으로 활용되었던 생성 언어 모델이 컴퓨터 비전 분야의 텍스트 인식에도 효과적일 수 있는지를 검증하였습니다. 실험 결과, DTrOCR는 영어와 한자 모두에서 인쇄체, 필기체, 그리고 장면 텍스트의 인식 정확도가 현존하는 최신 방법론들보다 크게 우수함을 입증하였습니다.