Command Palette
Search for a command to run...
自然画像における方向付きテキストの検出:セグメントの連結による手法
自然画像における方向付きテキストの検出:セグメントの連結による手法
Shi Baoguang Bai Xiang Belongie Serge
概要
最先端のテキスト検出手法の多くは、水平方向のラテン文字に特化しており、リアルタイム応用には十分な速度を発揮できない。本研究では、方向付きテキスト検出を目的とした「セグメントリンク(SegLink)」を提案する。本手法の核心的なアイデアは、テキストを「セグメント」と「リンク」という二つの局所的に検出可能な要素に分解することにある。セグメントとは、単語またはテキスト行の一部をカバーする方向付きの矩形領域を指し、リンクは隣接する二つのセグメントを結びつけるもので、それらが同一の単語またはテキスト行に属することを示す。これらの二つの要素は、エンド・ツー・エンドで訓練された完全畳み込みニューラルネットワークにより、複数スケールで密に検出される。最終的な検出結果は、リンクによって接続されたセグメントを統合することで得られる。従来の手法と比較して、SegLinkは精度、処理速度、学習の容易さという観点で優れた性能を発揮する。標準的なICDAR 2015 Incidental(チャレンジ4)ベンチマークにおいて、F値75.0%を達成し、従来の最良手法を大きく上回った。また、512×512の画像上で20 FPS以上で動作可能であり、変更を加えずに中国語をはじめとする非ラテン文字の長文も検出可能である。