2달 전

자연 이미지에서 텍스트 위치 추정을 위한 합성 데이터

Ankush Gupta; Andrea Vedaldi; Andrew Zisserman
자연 이미지에서 텍스트 위치 추정을 위한 합성 데이터
초록

본 논문에서는 자연 이미지에서 텍스트를 감지하기 위한 새로운 방법을 소개합니다. 이 방법은 두 가지 기여로 구성됩니다: 첫째, 복잡한 환경에서 텍스트의 합성 이미지를 생성하는 빠르고 확장 가능한 엔진입니다. 이 엔진은 현존하는 배경 이미지에 합성 텍스트를 자연스럽게 중첩시키며, 지역 3D 장면 기하학을 고려하여 이를 수행합니다. 둘째, 합성 이미지를 사용하여 모든 위치와 여러 스케일에서 효율적으로 텍스트 감지 및 바운딩 박스 회귀를 수행하는 완전 컨벌루션 회귀 네트워크(Fully-Convolutional Regression Network, FCRN)를 훈련시킵니다. 우리는 FCRN이 최근 도입된 YOLO 검출기와의 관계, 그리고 딥러닝을 기반으로 하는 다른 end-to-end 객체 검출 시스템과의 관계에 대해 논의합니다. 결과적으로 생성된 검출 네트워크는 자연 이미지에서 텍스트를 감지하는 현재의 방법들을 크게 능가하며, 표준 ICDAR 2013 벤치마크에서 F-측정값 84.2%를 달성했습니다. 또한, GPU 상에서 초당 15장의 이미지를 처리할 수 있습니다.

자연 이미지에서 텍스트 위치 추정을 위한 합성 데이터 | 최신 연구 논문 | HyperAI초신경