MANGO:マスク注意機構を活用したワンステージ型シーンテキストスポットタ

近年、エンドツーエンド型シーンテキストスポットティングは、全体最適化の利点および実用応用における高い保守性から、注目される研究テーマとなっている。多数の既存手法は、検出部とシーケンス認識部を2段階のフレームワークに統合するため、さまざまな領域の注目(RoI)操作の開発に努めている。しかし、このようなフレームワークでは、認識部が検出結果(例:テキスト輪郭の密着性)に極めて敏感であるという課題がある。本論文では、この問題に対処するため、RoI操作を一切用いずに文字列を直接認識可能な新しいマスク注意機構を搭載した1段階型テキストスポットティングフレームワーク「MANGO(Mask Attention Guided One-stage text spotting)」を提案する。具体的には、各テキストインスタンスおよびその文字に対して注意重みを生成する「位置認識型マスク注意モジュール」を設計し、画像内の異なるテキストインスタンスがそれぞれ異なる特徴マップチャネルに割り当てられるようにする。その後、これらの特徴はインスタンス特徴のバッチとしてグループ化される。最後に、軽量なシーケンスデコーダを適用して文字列を生成する。MANGOの特徴として、任意形状のテキストスポットティングに本質的に適応可能であり、粗い位置情報(例:矩形バウンディングボックス)とテキストアノテーションのみでエンドツーエンド学習が可能である点が挙げられる。実験結果から、提案手法は、規則的および不規則なテキストスポットティングベンチマーク(ICDAR 2013、ICDAR 2015、Total-Text、SCUT-CTW1500)において、競争力ある性能を達成し、一部のタスクでは新たなSOTA(State-of-the-Art)性能を記録した。