HyperAIHyperAI

Command Palette

Search for a command to run...

PGNet:ポイント集約ネットワークを用いたリアルタイムな任意形状テキストスポットティング

Pengfei Wang Chengquan Zhang Fei Qi Shanshan Liu Xiaoqiang Zhang Pengyuan Lyu Junyu Han Jingtuo Liu Errui Ding Guangming Shi

概要

任意形状のテキスト読み取りは、近年ますます注目される研究分野となっている。しかし、従来のテキストスポットタ(text spotter)は、主に二段階フレームワークまたは文字ベースの手法に依拠しており、いずれも非最大値抑制(Non-Maximum Suppression: NMS)、領域関心(Region-of-Interest: RoI)操作、あるいは文字レベルのアノテーションを必要とするという課題を抱えている。本論文では、これらの問題を解決するため、リアルタイムで任意形状のテキストを読み取ることを目的として、新しい完全畳み込み型のポイント集約ネットワーク(Point Gathering Network: PGNet)を提案する。PGNetは単一ショットのテキストスポットタであり、提案するPG-CTC損失関数を用いて、文字レベルのアノテーションを用いずにピクセルレベルの文字分類マップを学習する。PG-CTCデコーダを導入することで、二次元空間から高レベルの文字分類ベクトルを集約し、NMSやRoI操作を一切用いずにテキスト記号にデコードすることができ、高い効率性を実現する。さらに、各文字とその隣接文字との関係性を推論するため、粗い認識結果を最適化し、エンドツーエンドの性能を向上させるためのグラフ精 refinement モジュール(Graph Refinement Module: GRM)を提案する。実験の結果、提案手法は競争力ある精度を達成するとともに、処理速度を顕著に向上させることを示した。特にTotal-Textデータセットにおいて、46.7 FPSの実行速度を達成し、従来のスポットタと比較して大幅な性能向上を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています