HyperAIHyperAI

Command Palette

Search for a command to run...

ピラミッドマスクテキスト検出器

Jingchao Liu; Xuebo Liu; Jie Sheng; Ding Liang; Xin Li; Qingjie Liu

概要

シーンテキスト検出は、シーンテキスト認識システムの重要なステップであり、自然なシーン画像中のテキストインスタンスを自動的に位置づけることを目的としています。最近の試みでは、Mask R-CNNを活用してシーンテキスト検出タスクをインスタンスセグメンテーション問題として定式化し、著しい性能向上を達成しています。本論文では、Mask R-CNNに基づく新しいフレームワークであるピラミッドマスクテキストデテクター(Pyramid Mask Text Detector: PMTD)を提案します。既存のMask R-CNNベースの手法が生成するバイナリーテキストマスクとは異なり、PMTDは位置情報に基づく監督の下でピクセルレベルの回帰を行い、各テキストインスタンスに対してより情報量の多いソフトテキストマスクを生成します。テキストボックスの生成に関しては、PMTDは得られた2次元ソフトマスクを3次元空間に再解釈し、新しい平面クラスタリングアルゴリズムを導入することで3次元形状に基づいて最適なテキストボックスを導き出します。標準データセットでの実験結果から、提案されたPMTDが一貫したかつ顕著な改善をもたらし、最先端の手法を明確に上回ることが示されました。特にICDAR 2017 MLTデータセットにおいてF値80.13%を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ピラミッドマスクテキスト検出器 | 記事 | HyperAI超神経