HyperAIHyperAI

Command Palette

Search for a command to run...

シーケンス生成に基づく統一型シーンテキストスポットティングへ向けて

Taeho Kil Seonghyeon Kim Sukmin Seo Yoonsik Kim Daehee Kim

概要

最近、シーケンス生成モデルはさまざまな視覚タスクを統合する上で顕著な進展を遂げている。一部の自己回帰型モデルは、エンドツーエンドのテキストスポットティングにおいて有望な結果を示しているが、特定の検出形式に依存しており、多様なテキスト形状を無視するという課題があり、検出可能なテキストインスタンスの最大数に制限がある。これらの制約を克服するため、本研究では「UNITS(UNIfied scene Text Spotter)」と呼ばれる統合型シーンテキストスポットティングモデルを提案する。本モデルは、四角形や多角形を含む多様な検出形式を統合し、任意の形状のテキストを検出可能にする。さらに、開始点プロンプティング(starting-point prompting)を導入することで、モデルが任意の位置からテキストを抽出できるようにし、学習時に扱ったインスタンス数を超えるテキストを抽出することが可能となった。実験結果から、本手法は最先端手法と比較しても競争力のある性能を示した。さらに分析の結果、UNITSは学習時に扱ったインスタンス数を上回る数のテキストを抽出可能であることが明らかになった。本手法のコードは、https://github.com/clovaai/units にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
シーケンス生成に基づく統一型シーンテキストスポットティングへ向けて | 記事 | HyperAI超神経