SRFormer:統合されたセグメンテーションと回帰を備えたテキスト検出Transformer

テキスト検出に用いられる従来の手法は、主に二つの大別に分類される。一つはセグメンテーションベースの手法、もう一つは回帰ベースの手法である。セグメンテーションモデルはフォントの変化に対して高いロバスト性を発揮するが、複雑な後処理を必要とし、計算負荷が高くなるという課題がある。一方、回帰ベースの手法はインスタンスを意識した予測を実現するものの、高レベルな表現に依存するため、ロバスト性とデータ効率性に制限がある。本研究では、これらの利点を統合する新たなアプローチとして、セグメンテーションと回帰を統合したDETRベースのモデル「SRFormer」を提案する。本モデルは、セグメンテーション表現に内在するロバスト性を活かしつつ、インスタンスレベルの回帰による簡潔な後処理を実現することを目的としている。実証的な分析から、初期のデコーダ層で良好なセグメンテーション予測が得られることを確認した。これを踏まえ、セグメンテーションブランチの導入を最初の数層に限定し、以降の層では段階的な回帰精緻化を実施することで、マスク処理による計算負荷を最小限に抑えつつ、性能の向上を達成した。さらに、マスク情報を活用したクエリ強化モジュール(Mask-informed Query Enhancement)を提案する。このモジュールでは、セグメンテーション結果を自然なソフトROI(Region of Interest)として用い、強固なピクセル表現を抽出・集約し、その情報をもとにインスタンスクエリの質を向上させ、多様性を高める。複数のベンチマークにおける広範な実験結果から、本手法が優れたロバスト性、優れた学習およびデータ効率性、および最先端の性能を示すことが明らかになった。本研究のコードは、https://github.com/retsuh-bqw/SRFormer-Text-Det にて公開されている。