8日前

DeepSolo++:明示的なポイントを備えたTransformerデコーダーによる多言語テキストスポットティング

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo++:明示的なポイントを備えたTransformerデコーダーによる多言語テキストスポットティング
要約

エンドツーエンドテキストスポットティングは、シーンテキスト検出と認識を統合的なフレームワークに統合することを目的としています。この二つのサブタスク間の関係性を適切に扱うことが、効果的なスポットターデザインにおいて極めて重要な役割を果たします。Transformerベースの手法は、ヒューリスティックな後処理を排除する一方で、依然としてサブタスク間の連携(シンエジー)問題と低効率な学習プロセスに直面しています。さらに、多言語テキストスポットティングにおいては、追加のスクリプト識別タスクを必要とするにもかかわらず、既存手法はその探索を軽視しています。本論文では、単一のデコーダが明示的なポイントを用いてテキスト検出、認識、スクリプト識別を同時に処理できる、シンプルなDETR類似ベースライン「DeepSolo++」を提案します。技術的には、各テキストインスタンスに対して、文字列を順序付きのポイントとして表現し、学習可能な明示的ポイントクエリとしてモデル化します。単一のデコーダを通過させた後、ポイントクエリは必要なテキストの意味情報と位置情報をエンコードしており、その後、非常にシンプルな予測ヘッドを並列的に用いて、テキストの中心線、境界、スクリプト種別、信頼度をそれぞれ抽出することが可能になります。さらに、本手法の驚くべき汎用性を示します。これは文字クラス、言語種別、タスクの拡張性において顕著です。一方で、本手法は英語シーンにおいて優れた性能を発揮するだけでなく、中国語のような複雑なフォント構造と数千レベルの文字クラスを扱う文字変換にも対応できることを実証しました。他方で、従来手法と比較して、よりシンプルな学習パイプラインでスクリプト識別タスクにおいても優れた性能を達成しています。また、本モデルはラインアノテーション(polygonよりも大幅に低コストなアノテーション形式)とも互換性があるため、実用性が高まります。コードは \url{https://github.com/ViTAE-Transformer/DeepSolo} にて公開されています。

DeepSolo++:明示的なポイントを備えたTransformerデコーダーによる多言語テキストスポットティング | 最新論文 | HyperAI超神経