자기 감독된 문자-문자 증류를 이용한 텍스트 인식

복잡한 텍스트 이미지(예: 불규칙한 구조, 낮은 해상도, 심각한 가림 현상, 불균일한 조명)를 처리할 때 기존의 지도 텍스트 인식 방법들은 데이터에 매우 의존적입니다. 이러한 방법들이 대규모 합성 텍스트 이미지를 사용하여 주석이 달린 실제 이미지에 대한 의존성을 줄이려고 하더라도, 도메인 간의 차이는 여전히 인식 성능을 제한합니다. 따라서, 자기지도 학습을 통해 라벨이 없는 실제 이미지에서 강건한 텍스트 특징 표현을 탐구하는 것이 좋은 해결책입니다. 그러나, 기존의 자기지도 텍스트 인식 방법들은 시퀀스-투-시퀀스 표현 학습을 위해 수평축을 따라 대략적으로 시각적 특징을 분리하기 때문에 증강의 유연성이 제한되며, 큰 기하학적 증강은 시퀀스-투-시퀀스 특징 일관성을 저해할 수 있습니다.이러한 동기를 바탕으로, 우리는 다양한 증강을 통해 일반적인 텍스트 표현 학습을 촉진하는 새로운 자기지도 문자-문자 정제 방법인 CCD(Character-to-Character Distillation)를 제안합니다. 특히, 자기지도 문자 분할 모듈을 설계하여 라벨이 없는 실제 이미지의 문자 구조를 명확히 구분합니다. 이어서 CCD는 두 개의 증강된 뷰 사이의 변환 행렬을 사용하여 유연한 증강 하에서도 각 문자 쌍의 정렬을 유지하면서 로컬 문자의 다양성을 쉽게 확장할 수 있습니다. 실험 결과, CCD는 평균적으로 텍스트 인식에서 1.38%, 텍스트 분할에서 1.7%, 텍스트 초해상도에서 0.24 dB (PSNR)와 0.0321 (SSIM)의 성능 개선률로 최신 연구 결과를 달성했습니다. 코드는 https://github.com/TongkunGuan/CCD 에서 확인 가능합니다.