순서 없는 박스 디스크리타이제이션 네트워크의 다중 방향 장면 텍스트 탐지에 대한 능력 탐구

다중 방향 장면 텍스트 검출은 최근 상당한 연구 관심을 끌고 있다. 기존의 방법들은 일반적으로 사각형 형태를 사용하여 단어나 텍스트 라인을 직접 예측하지만, 이러한 많은 방법들은 일관된 레이블링의 중요성을 간과하고 있다. 특히 대량의 데이터를 포함할 경우, 안정적인 학습 과정을 유지하는 데 있어 일관된 레이블링은 매우 중요한 요소이다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 방법인 '순서 불문 박스 이산화(Orderless Box Discretization, OBD)'를 제안한다. OBD는 사각형 박스를 수직 및 수평 방향의 모든 가능 위치를 포함하는 여러 핵심 엣지로 사전에 이산화하는 방식으로 작동한다. 정확한 꼭짓점 위치를 복원하기 위해, 간단하면서도 효과적인 매칭 절차를 제안하여 사각형 경계 박스를 재구성한다. 본 방법은 학습 과정에 중대한 영향을 미치는 모호성 문제를 해결한다. 정량적인 검증을 위해 광범위한 아블레이션 연구를 수행하였으며, 특히 OBD 기반으로 다양한 개선 기법들의 영향을 체계적으로 분석하였다. 이러한 분석은 다른 연구자들이 최신 기술 수준의 텍스트 검출기 구축에 영감을 얻는 데 기여할 수 있다. OBD와 이러한 유용한 개선 기법들을 결합함으로써, ICDAR 2015 및 MLT를 포함한 다양한 벤치마크에서 최신 기술 수준의 성능을 달성하였다. 또한 최근 열린 ICDAR2019 Robust Reading Challenge의 간판에 인쇄된 중국어 텍스트 검출 과제에서 1위를 차지하며, 본 방법의 뛰어난 성능을 추가로 입증하였다. 코드는 https://git.io/TextDet 에 공개되어 있다.