8日前
SwinTextSpotter:テキスト検出とテキスト認識のより優れた連携を活用したシーンテキストスポットリング
Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin

要約
近年、シーンテキスト検出と認識の内在的な連携を活用した成果に伴い、エンドツーエンド型シーンテキストスポットティング(text spotting)に注目が集まっている。しかし、最近の最先端手法は、主にバックボーンの共有によって検出と認識を単純に統合しているに過ぎず、両タスク間の特徴相互作用を直接的に活用できていない。本論文では、新しいエンドツーエンド型シーンテキストスポットティングフレームワークであるSwinTextSpotterを提案する。本手法は、動的ヘッド(dynamic head)を備えたTransformerエンコーダを検出器として用い、新たな「認識変換(Recognition Conversion)」機構により、認識損失を通じてテキストの局所化を明示的にガイドする。このシンプルな設計により、追加の補正モジュールや文字レベルのアノテーションを必要とせず、任意形状のテキストに対応できる簡潔なフレームワークを実現した。多方向テキストを含むデータセットRoIC13およびICDAR 2015、任意形状テキストを含むTotal-TextおよびCTW1500、多言語データセットReCTS(中国語)およびVinText(ベトナム語)における定性的・定量的実験の結果、SwinTextSpotterは既存手法を著しく上回ることが確認された。コードはGitHubにて公開されている:https://github.com/mxin262/SwinTextSpotter。