3ヶ月前

自然シーンにおける任意形状のテキストを検出するための手法で、テキストスポットティングを向上させる

Qitong Wang, Yi Zheng, Margrit Betke
自然シーンにおける任意形状のテキストを検出するための手法で、テキストスポットティングを向上させる
要約

自然なシーン画像(例:高速道路標識や店舗の看板)におけるテキストの意味を理解することは、特に画像内でテキストが透視的に縮小されている場合や、文字が芸術的に歪められている場合に極めて困難である。本研究では、複雑な背景を持つ自然シーン画像において、さまざまなフォント、形状、方向のテキストを検出・認識できるパイプライン型のテキストスポットティングフレームワークを提案する。本研究の主な貢献は、テキスト検出部としてのUHT(UNet、Heatmap、Textfillの略)である。UHTはUNetを用いて候補テキスト領域のヒートマップを計算し、テキストフィル(Textfill)アルゴリズムにより各単語の周囲にタイトな多角形境界を生成する。本手法は、教師データとして提供されるテキストバウンディングポリゴンから得た真値ヒートマップを用いてUNetを学習させる。提案するテキストスポットティングフレームワーク「UHTA」は、UHTと最先端のテキスト認識システムASTERSを組み合わせたものである。Total-Text、SCUT-CTW1500、MSRA-TD500、COCO-Textの4つの困難で公開されているシーンテキスト検出データセットに対する実験により、UHTが多言語(回転可能)な直線的テキストだけでなく、複数の言語体系におけるカーブしたテキストの検出においても有効性と汎化能力を示した。Total-TextデータセットにおけるUHTAの実験結果では、F-measureにおいて4つの最先端テキストスポットティングフレームワークを最低9.1ポイント以上上回った。この結果から、UHTAは実際の応用において完全なテキスト検出・認識システムとして利用可能であることが示唆される。