I3CL: 임의의 형상 텍스트 감지를 위한 내부 및 외부 인스턴스 협업 학습

자연 장면에서 임의의 형태 텍스트 검출을 위한 기존 방법은 두 가지 핵심적인 문제를 안고 있다. 첫째, 텍스트 인스턴스 내부의 간격(공백)에서의 분할 검출 문제이며, 둘째, 다양한 배경 환경을 가진 임의의 형태 텍스트 인스턴스에 대한 정확도 부족 문제이다. 이러한 문제를 해결하기 위해 우리는 새로운 방법인 '인트라- 및 인터-인스턴스 협업 학습(Intra- and Inter-Instance Collaborative Learning, I3CL)'을 제안한다. 구체적으로, 첫 번째 문제를 해결하기 위해 다중 수용 영역을 갖춘 효과적인 컨볼루션 모듈을 설계하여, 텍스트 인스턴스 내부의 국소적 및 장거리 범위에서 문자와 간격 특징 표현을 공동으로 학습할 수 있도록 한다. 두 번째 문제를 해결하기 위해, 서로 다른 텍스트 인스턴스 간의 종속성을 탐색하는 인스턴스 기반 트랜스포머 모듈과 공유된 배경에서의 의미적 맥락을 활용하는 글로벌 맥락 모듈을 설계하였으며, 이는 더 구분력 있는 텍스트 특징 표현을 공동으로 학습하는 데 기여한다. 이러한 방식으로 I3CL은 통합된 엔드투엔드 훈련 가능한 프레임워크 내에서 인트라-인스턴스 및 인터-인스턴스 종속성을 효과적으로 활용할 수 있다. 또한, 레이블이 없는 데이터를 최대한 활용하기 위해, 앙상블 전략을 통해 의사 레이블(pseudo labels)을 활용하는 효과적인 반감독 학습 방법을 설계하였다. 복잡한 기법 없이도 실험 결과, 제안하는 I3CL은 ICDAR2019-ArT, Total-Text, CTW-1500의 세 가지 도전적인 공개 벤치마크에서 새로운 최고 성능을 기록하였으며, 각각 F-측정치 77.5%, 86.9%, 86.4%를 달성하였다. 특히, ResNeSt-101 백본을 사용한 I3CL은 ICDAR2019-ArT 리더보드에서 1위를 차지하였다. 소스 코드는 https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection 에서 공개될 예정이다.