TextOCR テキスト認識データセット

OCR は光学式文字認識の略で、あらゆるシーン内のテキストを検出および認識するために使用されるデータ セットです。 TextOCR は、TextVQA の画像に対して約 100 万の高品質な単語の注釈を提供し、視覚的な質問応答や画像キャプションなどの下流タスクでエンドツーエンドの推論を実行できます。
データセットには以下が含まれます。
- TextVQA データセットからの 28,134 枚の画像
- 903,096 の注釈付きシーンテキスト単語
- 画像あたり平均 32 個の関連ワード