2달 전
Scene Text Recognition 모델 비교에 무엇이 잘못되었는가? 데이터셋 및 모델 분석
Baek, Jeonghun ; Kim, Geewook ; Lee, Junyeop ; Park, Sungrae ; Han, Dongyoon ; Yun, Sangdoo ; Oh, Seong Joon ; Lee, Hwalsuk

초록
최근 몇 년 동안 장면 텍스트 인식(Scene Text Recognition, STR) 모델에 대한 많은 새로운 제안들이 소개되었습니다. 각각의 제안은 기술의 한계를 확장했다고 주장하지만, 훈련 및 평가 데이터셋 선택의 일관성 부족으로 인해 이 분야에서 전체적이고 공정한 비교가 대부분 부족했습니다. 본 논문은 세 가지 주요 기여를 통해 이러한 어려움을 해결합니다. 첫째, 우리는 훈련 및 평가 데이터셋의 일관성 부족과 그로 인한 성능 차이를 검토합니다. 둘째, 대부분의 기존 STR 모델이 포함되는 통합된 네 단계 STR 프레임워크를 도입합니다. 이 프레임워크를 사용하면 이전에 제안된 STR 모듈들의 광범위한 평가와 이전에 탐구되지 않았던 모듈 조합 발견이 가능해집니다. 셋째, 하나의 일관된 훈련 및 평가 데이터셋 집합 하에서 정확도, 속도, 메모리 요구량 측면에서 모듈별 성능 기여를 분석합니다. 이러한 분석은 현재 비교에서 성능 개선을 이해하는 데 방해가 되는 요소들을 정리하는데 도움을 줍니다.