2ヶ月前

WordSup: 単語注釈を活用した文字ベースのテキスト検出

Han Hu; Chengquan Zhang; Yuxuan Luo; Yuzhuo Wang; Junyu Han; Errui Ding
WordSup: 単語注釈を活用した文字ベースのテキスト検出
要約

画像テキストは通常、文字、単語、テキスト行、テキストブロックなどの複数の視覚要素の階層構造として整理されます。これらの要素の中で、文字は西洋言語、中国語、日本語、数学式などさまざまな言語において最も基本的な要素です。文字検出エンジンを文字検出器に基づいて構築することは自然かつ便利です。しかし、文字検出器の学習には大量の位置が注釈された文字が必要であり、その取得はコストがかかります。実際には、既存の実際のテキストデータセットの多くは単語レベルまたは行レベルで注釈されています。このジレンマを解決するために、我々は単語注釈(密接な四角形またはより緩いバウンディングボックス)を利用できる弱教師付きフレームワークを提案します。シーンテキスト検出に適用することで、ICDAR15やCOCO-textなどの大規模な実際のシーンテキストデータセットから単語注釈を活用して堅牢な文字検出器を学習することが可能になります。文字検出器は我々のテキスト検出エンジンのパイプラインにおいて重要な役割を果たし、いくつかの困難なシーンテキスト検出ベンチマークで最先端の性能を達成しています。また、変形したテキスト検出や数学式認識など様々なシナリオでのパイプラインの柔軟性も示しています。