2ヶ月前

単一ショットの任意形状テキスト検出器:コンテクストに注目したマルチタスク学習に基づく

Pengfei Wang; Chengquan Zhang; Fei Qi; Zuming Huang; Mengyi En; Junyu Han; Jingtuo Liu; Errui Ding; Guangming Shi
単一ショットの任意形状テキスト検出器:コンテクストに注目したマルチタスク学習に基づく
要約

過去数年間、任意の形状を持つシーンテキストの検出は難題でした。本論文では、Fully Convolutional Network(FCN)を基盤とするコンテクスト注意多タスク学習フレームワークを用いて、テキスト領域の多角形表現の再構成に必要な様々な幾何学的特性を学習する新しいセグメンテーションベースのテキスト検出器SASTを提案します。テキストの連続的な特性を考慮し、長距離依存関係のピクセル情報を捕捉してより信頼性のあるセグメンテーションを得るため、コンテクスト注意ブロックが導入されました。後処理においては、高レベルなオブジェクト知識と低レベルなピクセル情報の両方を統合して一発でピクセルをテキストインスタンスにクラスタリングするPoint-to-Quad割り当て手法が提案されています。さらに、提案された幾何学的特性により、任意形状のテキストの多角形表現が効果的に抽出できます。ICDAR2015、ICDAR2017-MLT、SCUT-CTW1500、Total-Textなどのベンチマークでの実験結果から、SASTは精度に関して優れたまたは同等の性能を達成することが示されています。また、単一のNVIDIA Titan Xpグラフィックスカードを使用してSCUT-CTW1500上でHmean 81.0%で27.63 FPSで動作することから、既存の大半のセグメンテーションベース手法を超えることが確認されています。

単一ショットの任意形状テキスト検出器:コンテクストに注目したマルチタスク学習に基づく | 最新論文 | HyperAI超神経