8日前
DeepSolo:明示的なポイントを備えたTransformer Decoderによるテキストスポットティングへの単独適用
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao

要約
エンドツーエンドテキストスポットティングは、シーンテキスト検出と認識を統合的なフレームワークに組み込むことを目的としています。この二つのサブタスク間の関係性を適切に扱うことが、効果的なスポットタの設計において極めて重要です。Transformerを基盤とする手法は、ヒューリスティックな後処理を排除する一方で、依然としてサブタスク間の協調性(synergy)の問題と低い学習効率という課題を抱えています。本論文では、単一のデコーダを用いて明示的な点(explicit points)を活用し、テキスト検出と認識を同時に実行できるシンプルなDETR型ベースライン「DeepSolo」を提案します。技術的には、各テキストインスタンスに対して文字列を順序付きの点として表現し、学習可能な明示的点クエリとしてモデル化します。単一のデコーダを通過させた後、これらの点クエリには必要なテキストの意味情報と位置情報がエンコードされ、その後、並列に配置された単純な予測ヘッドによって、テキストの中心線、境界、文字種、信頼度を直接出力できます。さらに、より正確な教師信号を提供するためのテキストマッチング基準を導入することで、学習効率の向上を実現しました。公開ベンチマーク上での定量的実験の結果、DeepSoloは従来の最先端手法を上回る性能を達成するとともに、より高い学習効率を示しました。また、DeepSoloはラインアノテーションにも対応可能であり、ポリゴンアノテーションと比較して大幅にアノテーションコストを削減できます。コードは以下のURLで公開されています:https://github.com/ViTAE-Transformer/DeepSolo。