2달 전

단일 샷 텍스트 검출기와 지역 주의력

Pan He; Weilin Huang; Tong He; Qile Zhu; Yu Qiao; Xiaolin Li
단일 샷 텍스트 검출기와 지역 주의력
초록

우리는 자연 이미지에서 단어 수준의 경계 상자를 직접 출력하는 새로운 원샷 텍스트 검출기를 제시합니다. 자동으로 학습된 주의 맵을 통해 텍스트 영역을 대략적으로 식별하는 주의 메커니즘을 제안합니다. 이는 특히 극히 작은 크기의 단어 추론에서 정확한 결과를 얻기 위한 핵심 요소로, 배경 간섭을大幅减少. 这样一来,模型本质上以粗到精的方式工作。与最近的基于FCN的文本检测器不同,后者通过级联多个FCN模型来实现准确预测。此外,我们开发了一种分层的Inception模块,可以高效地聚合多尺度Inception特征。这不仅增强了局部细节,还编码了强大的上下文信息,使得检测器能够在单尺度图像上可靠地处理多尺度和多方向文本。我们的文本检测器在ICDAR 2015基准测试中达到了77%的F值,超越了[18, 28]中的最新结果。演示可在以下网址获取:http://sstd.whuang.org/.(注:在上述翻译中,“大幅减少”、“这样一来”、“与最近的基于FCN的文本检测器不同”等部分为了保持韩语表达习惯进行了适当调整。)修正后的翻译如下:우리는 자연 이미지에서 단어 수준의 경계 상자를 직접 출력하는 새로운 원샷 텍스트 검출기를 제시합니다. 자동으로 학습된 주의 맵을 통해 텍스트 영역을 대략적으로 식별하는 주의 메커니즘을 제안합니다. 이는 특히 극히 작은 크기의 단어 추론에서 정확한 결과를 얻기 위한 핵심 요소로, 배경 간섭을 크게 억제합니다. 이렇게 하여 모델은 본질적으로 거칠게부터 세밀하게 접근하는 방식으로 작동합니다. 최근에 여러 FCN 모델을 연속적으로 사용하여 정확한 예측을 수행하는 FCN 기반 텍스트 검출기와 달리, 우리의 방법은 하나의 모델로 이를 수행합니다. 또한, 우리는 다중 스케일 인셉션 특성을 효율적으로 집계할 수 있는 계층적 인셉션 모듈을 개발했습니다. 이는 국부적인 세부 정보를 강화하고, 강력한 문맥 정보를 부호화하여, 단일 스케일 이미지에서 다양한 스케일과 방향성을 가진 텍스트를 안정적으로 처리할 수 있도록 합니다. 우리의 텍스트 검출기는 ICDAR 2015 벤치마크에서 F-측도 77%를 달성하여 [18, 28]에서 보고된 최신 연구 결과를 앞섰습니다. 데모는 다음 웹사이트에서 확인 가능합니다: http://sstd.whuang.org/.

단일 샷 텍스트 검출기와 지역 주의력 | 최신 연구 논문 | HyperAI초신경