16일 전

빠르고 효율적인 장면 텍스트 인식을 위한 비전 트랜스포머

Rowel Atienza
빠르고 효율적인 장면 텍스트 인식을 위한 비전 트랜스포머
초록

장면 텍스트 인식(Scene text recognition, STR)은 물체 라벨, 도로 표지판, 지시문과 같은 자연 장면 속 텍스트를 컴퓨터가 인식할 수 있게 해준다. STR는 어떤 물체를 집어야 하는지, 어느 방향으로 이동해야 하는지, 그리고 다음 단계의 행동은 무엇인지와 같은 정보 기반의 결정을 기계가 수행하도록 돕는다. STR 분야의 기존 연구들은 항상 인식 정확도에 초점을 맞추어 왔다. 그러나 에너지 제약이 있는 모바일 기계에 있어 속도와 계산 효율성 역시 동등하게 중요한 요소임에도 불구하고, 이에 대한 강조는 미흡한 실정이다. 본 논문에서는 계산 및 파라미터 효율적인 비전 트랜스포머(Vision Transformer, ViT) 기반의 단일 단계(single stage) 아키텍처를 갖춘 STR 모델인 ViTSTR을 제안한다. TRBA와 같은 강력한 기준 모델(정확도 84.3%)과 비교했을 때, 소형 ViTSTR은 파라미터 수의 43.4%와 FLOPS의 42.2%만을 사용하면서도 82.6%의 경쟁력 있는 정확도를 달성하였으며(데이터 증강 적용 시 84.2%), 2.4배 빠른 속도를 제공한다. 미니어처 버전의 ViTSTR은 데이터 증강 없이 80.3%의 정확도(증강 시 82.1%)를 달성하면서도 2.5배 빠른 처리 속도를 보이며, 파라미터 수의 10.9%와 FLOPS의 11.9%만을 소비한다. 데이터 증강을 적용한 기본형 ViTSTR은 TRBA보다 더 높은 정확도(85.2%, 증강 없이 83.7%)를 기록하면서도 2.3배 빠른 속도를 제공하지만, 파라미터 수는 73.2% 더 많고 FLOPS는 61.5% 더 소모한다. 이러한 성능-효율성 간의 트레이드오프 관점에서 볼 때, 거의 모든 ViTSTR 구성은 정확도, 속도, 계산 효율성을 동시에 최대화하는 경계선에 위치하거나 그 근처에 있다.

빠르고 효율적인 장면 텍스트 인식을 위한 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경