DPText-DETR: Transformer 내 동적 포인트를 활용한 더 나은 시나리오 텍스트 검출

최근 들어, 텍스트를 지역화하기 위해 다각형 점이나 베지에 곡선의 제어점을 예측하는 기반 Transformer 방법이 장면 텍스트 검출 분야에서 인기를 끌고 있다. 그러나 이러한 방법들은 탐지 Transformer 아키텍처에 기반을 두고 있어, 거친 위치 쿼리 모델링으로 인해 최적의 학습 효율성과 성능을 달성하기 어려울 수 있다. 또한, 기존 연구에서 사용된 점 레이블 형식은 인간의 독해 순서를 암시하고 있어, 본 연구의 관찰 결과에 따르면 탐지의 강건성에 방해가 된다. 이러한 문제를 해결하기 위해 본 논문은 간결하면서도 효과적인 동적 점 기반 텍스트 검출 Transformer 네트워크인 DPText-DETR를 제안한다. 구체적으로, DPText-DETR는 명시적인 점 좌표를 직접 활용하여 위치 쿼리를 생성하고, 점진적인 방식으로 이를 동적으로 업데이트한다. 또한, Transformer 내 비국소적 자기주의(self-attention)의 공간 유도 편향을 향상시키기 위해, 각 인스턴스 내 점 쿼리에 원형 모양의 안내를 제공하는 개선된 인자화된 자기주의 모듈을 제안한다. 더불어, 기존 레이블 형식의 부작용을 해결하기 위해 간단하지만 효과적인 위치 레이블 형식을 설계하였다. 실제 환경에서 다양한 레이블 형식이 탐지 강건성에 미치는 영향을 추가적으로 평가하기 위해, 수작업으로 라벨링된 500장의 이미지를 포함하는 Inverse-Text 테스트 세트를 구축하였다. 광범위한 실험을 통해 제안한 방법이 뛰어난 학습 효율성, 강건성 및 최신 기준 수준의 성능을 다양한 주요 벤치마크에서 입증하였다. 코드 및 Inverse-Text 테스트 세트는 https://github.com/ymy-k/DPText-DETR에서 공개되어 있다.