
要約
最新のテキスト検出手法は、水平方向のラテン文字に特化しており、リアルタイムアプリケーションには十分な速度がありません。本稿では、Segment Linking(SegLink)と呼ばれる向き付きテキスト検出手法を提案します。この手法の主なアイデアは、テキストをセグメントとリンクという2つの局所的に検出可能な要素に分解することです。セグメントとは、単語やテキスト行の一部をカバーする向き付きのボックスであり、リンクは2つの隣接するセグメントを結び、それらが同じ単語やテキスト行に属することを示します。これらの要素は、エンドツーエンドで学習された完全畳み込みニューラルネットワークにより、複数のスケールで密集して検出されます。最終的な検出結果は、リンクによって結ばれたセグメントを結合することで生成されます。既存の手法と比較して、SegLinkは精度、速度、および学習の容易さにおいて改善しています。標準的なICDAR 2015 Incidental(チャレンジ4)ベンチマークにおいてf値75.0%を達成し、以前の最良手法を大幅に上回っています。512x512画像では20 FPS以上で動作します。さらに、変更なしで中国語などの非ラテン文字の長い行も検出可能です。