2달 전

PixelLink: 인스턴스 분할을 통한 장면 텍스트 검출

Dan Deng; Haifeng Liu; Xuelong Li; Deng Cai
PixelLink: 인스턴스 분할을 통한 장면 텍스트 검출
초록

최신의 장면 텍스트 검출 알고리즘 대부분은 바운딩 박스 회귀에 의존하는 딥러닝 기반 방법으로, 최소한 두 가지 예측을 수행합니다: 텍스트/비텍스트 분류와 위치 회귀입니다. 회귀는 이러한 방법에서 바운딩 박스를 획득하는 데 중요한 역할을 하지만, 필수적인 것은 아닙니다. 왜냐하면 텍스트/비텍스트 예측은 자체적으로 전체 위치 정보를 포함하는 의미 분할의 한 종류로 간주될 수 있기 때문입니다. 그러나 장면 이미지에서 텍스트 인스턴스들은 종종 매우 가까이 위치해 있어, 의미 분할을 통해 이를 구분하기가 매우 어렵습니다. 따라서 이 문제를 해결하기 위해 인스턴스 분할이 필요합니다. 본 논문에서는 인스턴스 분할 기반의 새로운 장면 텍스트 검출 알고리즘인 PixelLink(픽셀링크)를 제안합니다. 먼저 같은 인스턴스 내의 픽셀들을 연결하여 텍스트 인스턴스를 분할합니다. 그런 다음 위치 회귀 없이 분할 결과에서 직접 텍스트 바운딩 박스를 추출합니다. 실험 결과, 회귀 기반 방법과 비교하여 PixelLink는 여러 벤치마크에서 더 나은 또는 유사한 성능을 달성하면서도 많은 학습 반복과 적은 학습 데이터를 요구함을 보여주었습니다.

PixelLink: 인스턴스 분할을 통한 장면 텍스트 검출 | 최신 연구 논문 | HyperAI초신경