
要約
自然画像中のテキストは任意の方向を持つため、向きを考慮したバウンディングボックスでの検出が必要となります。通常、多方向テキスト検出器は以下の2つの主要なタスクを含むことが多くあります:1) テキスト存在検出(向きを無視した分類問題);2) 向きを考慮したバウンディングボックス回帰(テキストの向きに関する問題)。従来の手法では、両方のタスクに共通の特徴量を使用していましたが、これらのタスクの非互換性により性能が低下していました。この問題に対処するため、異なる設計を持つ2つのネットワークブランチから抽出された異なる特性の特徴量に対して分類と回帰を行う方法を提案します。具体的には、回帰ブランチは畳み込みフィルターを積極的に回転させることで回転に敏感な特徴量を抽出し、分類ブランチは回転に敏感な特徴量をプーリングすることで回転不変な特徴量を抽出します。提案された方法であるRotation-sensitive Regression Detector (RRD)は、ICDAR 2015, MSRA-TD500, RCTW-17, COCO-Textという3つの向き付きシーンテキストベンチマークデータセットにおいて最先端の性能を達成しています。さらに、RRDは船舶収集データセットでも大幅な改善を達成しており、向き付き物体検出における汎用性が示されています。