
要約
神経ネットワークを基にしたシーンテキスト検出手法が最近登場し、有望な結果を示しています。従来の手法は、固い単語レベルのバウンディングボックスで学習されたため、任意の形状のテキスト領域を表現する上で制限がありました。本論文では、各文字と文字間の親和性を探ることにより、効果的にテキスト領域を検出する新しいシーンテキスト検出手法を提案します。個々の文字レベルのアノテーション不足を克服するために、提案されたフレームワークは、合成画像に対する与えられた文字レベルのアノテーションと、学習済みの中間モデルによって取得された実画像に対する推定文字レベルの真値の両方を利用します。文字間の親和性を推定するために、ネットワークは新規に提案された親和性表現を使用して学習されます。TotalTextやCTW-1500データセットなど、自然画像中に高曲率のテキストを含む6つのベンチマークでの広範な実験により、提案した文字レベルのテキスト検出手法が最先端の検出器を大幅に上回ることが示されました。これらの結果から、提案手法は任意方向性、曲線状または変形した複雑なシーンテキスト画像を検出する際において高い柔軟性を保証することが確認されました。