16日前

DPText-DETR:Transformerにおける動的ポイントを活用したより優れたシーンテキスト検出へ

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao
DPText-DETR:Transformerにおける動的ポイントを活用したより優れたシーンテキスト検出へ
要約

近年、シーンテキスト検出において、テキストを局所化するために多角形の頂点やベジエ曲線の制御点を予測するTransformerベースの手法が注目を集めている。しかし、これらの手法は検出Transformerフレームワークに基づいているため、位置情報クエリのモデリングが粗いことから、最適な学習効率および性能を発揮できない場合がある。さらに、従来の研究で用いられている点ラベル形式は人間の読解順序を暗示しており、本研究の観察では、検出のロバスト性を損なう要因となっていることが明らかになった。こうした課題に対処するため、本論文では「Dynamic Point Text DEtection TRansformer(DPText-DETR)」と呼ばれる簡潔なネットワークを提案する。具体的には、DPText-DETRは明示的な点座標を用いて位置クエリを直接生成し、段階的にそれらを動的に更新する仕組みを採用している。また、Transformerにおける非局所自己注意機構の空間的誘導バイアスを強化するために、各インスタンス内の点クエリに円形形状のガイドを提供する「Enhanced Factorized Self-Attention(強化因子分解自己注意)モジュール」を提案する。さらに、従来のラベル形式に起因する副作用を解消するため、シンプルながら効果的な位置ラベル形式を設計した。実世界のシナリオにおける異なるラベル形式が検出ロバスト性に与える影響をさらに評価するために、手動でラベル付けされた500枚の画像から構成される「Inverse-Text」テストセットを構築した。広範な実験により、本手法が高い学習効率、優れたロバスト性、および既存のベンチマークにおいて最先端の性能を達成することが実証された。コードおよびInverse-Textテストセットは、https://github.com/ymy-k/DPText-DETR にて公開されている。