HyperAIHyperAI

Command Palette

Search for a command to run...

SwinTextSpotter:テキスト検出とテキスト認識のより優れた連携を活用したシーンテキストスポットリング

Mingxin Huang Yuliang Liu Zhenghao Peng Chongyu Liu Dahua Lin Shenggao Zhu Nicholas Yuan Kai Ding Lianwen Jin

概要

近年、シーンテキスト検出と認識の内在的な連携を活用した成果に伴い、エンドツーエンド型シーンテキストスポットティング(text spotting)に注目が集まっている。しかし、最近の最先端手法は、主にバックボーンの共有によって検出と認識を単純に統合しているに過ぎず、両タスク間の特徴相互作用を直接的に活用できていない。本論文では、新しいエンドツーエンド型シーンテキストスポットティングフレームワークであるSwinTextSpotterを提案する。本手法は、動的ヘッド(dynamic head)を備えたTransformerエンコーダを検出器として用い、新たな「認識変換(Recognition Conversion)」機構により、認識損失を通じてテキストの局所化を明示的にガイドする。このシンプルな設計により、追加の補正モジュールや文字レベルのアノテーションを必要とせず、任意形状のテキストに対応できる簡潔なフレームワークを実現した。多方向テキストを含むデータセットRoIC13およびICDAR 2015、任意形状テキストを含むTotal-TextおよびCTW1500、多言語データセットReCTS(中国語)およびVinText(ベトナム語)における定性的・定量的実験の結果、SwinTextSpotterは既存手法を著しく上回ることが確認された。コードはGitHubにて公開されている:https://github.com/mxin262/SwinTextSpotter


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SwinTextSpotter:テキスト検出とテキスト認識のより優れた連携を活用したシーンテキストスポットリング | 記事 | HyperAI超神経