11日前
MixNet:野生環境における困難なシーンテキストを正確に検出するためのもの
Yu-Xiang Zeng, Jun-Wei Hsieh, Xin Li, Ming-Ching Chang

要約
野生環境における小規模なシーンテキストインスタンスの検出は特に困難であり、不規則な配置や非理想的な照明条件が検出誤差を引き起こす要因となる。本研究では、CNNとTransformerの長所を統合したハイブリッドアーキテクチャであるMixNetを提案する。このモデルは、テキストの方向、スタイル、照明条件にかかわらず、困難な自然シーンから正確に小規模テキストを検出可能である。MixNetは以下の2つの主要モジュールで構成される:(1) ベースネットワークとして機能する特徴シャッフルネットワーク(FSNet)、(2) シーンテキストの1次元多様体制約を活用する中央トランスフォーマーブロック(CTBlock)。まず、FSNetにおいて新たな特徴シャッフル戦略を導入し、複数スケール間での特徴の交換を促進することで、従来のResNetやHRNetを上回る高解像度特徴を生成する。このFSNetベースネットワークは、PAN、DB、FASTなど多数の既存テキスト検出手法と比較して顕著な性能向上を達成した。次に、テキスト領域の中央線(テキスト領域の中軸線に類似)に基づく特徴を活用する補完的なCTBlockを設計し、小規模なシーンテキストが密接に配置された場合においても、輪郭に基づくアプローチを上回る性能を示した。広範な実験結果から、FSNetとCTBlockを組み合わせたMixNetが、複数のシーンテキスト検出データセットにおいて最先端の性能を達成することが確認された。