7ヶ月前

オブジェクト検出

コンピュータビジョン

ディープラーニング

コンピュータビジョン

Han Hu Chengquan Zhang Yuxuan Luo Yuzhuo Wang Junyu Han Errui Ding

概要

画像テキストは通常、文字、単語、テキスト行、テキストブロックなどの複数の視覚要素の階層構造として整理されます。これらの要素の中で、文字は西洋言語、中国語、日本語、数学式などさまざまな言語において最も基本的な要素です。文字検出エンジンを文字検出器に基づいて構築することは自然かつ便利です。しかし、文字検出器の学習には大量の位置が注釈された文字が必要であり、その取得はコストがかかります。実際には、既存の実際のテキストデータセットの多くは単語レベルまたは行レベルで注釈されています。このジレンマを解決するために、我々は単語注釈（密接な四角形またはより緩いバウンディングボックス）を利用できる弱教師付きフレームワークを提案します。シーンテキスト検出に適用することで、ICDAR15やCOCO-textなどの大規模な実際のシーンテキストデータセットから単語注釈を活用して堅牢な文字検出器を学習することが可能になります。文字検出器は我々のテキスト検出エンジンのパイプラインにおいて重要な役割を果たし、いくつかの困難なシーンテキスト検出ベンチマークで最先端の性能を達成しています。また、変形したテキスト検出や数学式認識など様々なシナリオでのパイプラインの柔軟性も示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

オブジェクト検出

コンピュータビジョン

ディープラーニング

コンピュータビジョン

Han Hu Chengquan Zhang Yuxuan Luo Yuzhuo Wang Junyu Han Errui Ding

概要

画像テキストは通常、文字、単語、テキスト行、テキストブロックなどの複数の視覚要素の階層構造として整理されます。これらの要素の中で、文字は西洋言語、中国語、日本語、数学式などさまざまな言語において最も基本的な要素です。文字検出エンジンを文字検出器に基づいて構築することは自然かつ便利です。しかし、文字検出器の学習には大量の位置が注釈された文字が必要であり、その取得はコストがかかります。実際には、既存の実際のテキストデータセットの多くは単語レベルまたは行レベルで注釈されています。このジレンマを解決するために、我々は単語注釈（密接な四角形またはより緩いバウンディングボックス）を利用できる弱教師付きフレームワークを提案します。シーンテキスト検出に適用することで、ICDAR15やCOCO-textなどの大規模な実際のシーンテキストデータセットから単語注釈を活用して堅牢な文字検出器を学習することが可能になります。文字検出器は我々のテキスト検出エンジンのパイプラインにおいて重要な役割を果たし、いくつかの困難なシーンテキスト検出ベンチマークで最先端の性能を達成しています。また、変形したテキスト検出や数学式認識など様々なシナリオでのパイプラインの柔軟性も示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています