2ヶ月前
野生環境でのテキスト読み取りに畳み込みニューラルネットワークを用いる
Max Jaderberg; Karen Simonyan; Andrea Vedaldi; Andrew Zisserman

要約
本研究では、自然画像中のテキストの位置特定と認識(テキストスポットティング)およびテキストに基づく画像検索のためのエンドツーエンドシステムを提案します。このシステムは、領域提案メカニズムによる検出と深層畳み込みニューラルネットワーク(CNN)による認識に基づいています。当社のパイプラインでは、高リコールを確保するために補完的な提案生成手法の新しい組み合わせを使用し、その後の高速なフィルタリングステージで精度を向上させます。提案された領域の認識とランキングについては、従来の文字分類器ベースのシステムとは異なり、単語認識を一括で行う非常に大規模なCNNを訓練します。これらのネットワークは、合成テキスト生成エンジンによって生成されたデータのみで訓練され、人間がラベル付けしたデータは必要ありません。当社のパイプラインの各段階について分析を行い、最先端の性能を示しています。複数の標準的なエンドツーエンドテキストスポットティングベンチマークやテキストベースの画像検索データセットにおいて厳密な実験を行った結果、すべての従来方法に対して大幅な改善が見られました。最後に、当社のテキストスポットティングシステムを実際のニュース映像に適用し、数千時間分の映像がテキストクエリにより瞬時に検索可能になるという実世界での応用例を示します。