8日前

シーケンス生成に基づく統一型シーンテキストスポットティングへ向けて

Taeho Kil, Seonghyeon Kim, Sukmin Seo, Yoonsik Kim, Daehee Kim

要約

最近、シーケンス生成モデルはさまざまな視覚タスクを統合する上で顕著な進展を遂げている。一部の自己回帰型モデルは、エンドツーエンドのテキストスポットティングにおいて有望な結果を示しているが、特定の検出形式に依存しており、多様なテキスト形状を無視するという課題があり、検出可能なテキストインスタンスの最大数に制限がある。これらの制約を克服するため、本研究では「UNITS（UNIfied scene Text Spotter）」と呼ばれる統合型シーンテキストスポットティングモデルを提案する。本モデルは、四角形や多角形を含む多様な検出形式を統合し、任意の形状のテキストを検出可能にする。さらに、開始点プロンプティング（starting-point prompting）を導入することで、モデルが任意の位置からテキストを抽出できるようにし、学習時に扱ったインスタンス数を超えるテキストを抽出することが可能となった。実験結果から、本手法は最先端手法と比較しても競争力のある性能を示した。さらに分析の結果、UNITSは学習時に扱ったインスタンス数を上回る数のテキストを抽出可能であることが明らかになった。本手法のコードは、https://github.com/clovaai/units にて公開している。