TextOCR 텍스트 인식 데이터 세트

OCR은 광학 문자 인식을 의미합니다. TextOCR은 모든 장면에서 텍스트를 감지하고 인식하는 데 사용되는 데이터 세트입니다. TextOCR은 TextVQA의 이미지에 대해 약 100만 개의 고품질 단어 주석을 제공하고, 시각적 질의응답이나 이미지 캡션 작성과 같은 다운스트림 작업에 대한 종단 간 추론을 수행할 수 있습니다.
데이터 세트에는 다음이 포함됩니다.
- TextVQA 데이터 세트의 28,134개 이미지
- 903,096개의 주석이 달린 장면 텍스트 단어
- 평균적으로 각 이미지에는 32개의 관련 단어가 있습니다.