HyperAIHyperAI

Command Palette

Search for a command to run...

形状ロバストなテキスト検出を実現する進行スケール拡張ネットワーク

Xiang Li Wenhai Wang* Wenbo Hou Ruo-Ze Liu Tong Lu Jian Yang

概要

形状に頑健なテキスト検出の課題は以下の2つの側面にあります:1)既存の四角形バウンディングボックスを基にした検出器は、任意の形状を持つテキストを完全に矩形で囲むことが難しいため、その位置を特定するのが困難です;2)ピクセル単位のセグメンテーションを基にした検出器は、互いに非常に近接しているテキストインスタンスを分離できない場合があります。これらの問題に対処するため、私たちは新しい「Progressive Scale Expansion Network(PSENet)」を提案します。これは、各テキストインスタンスに対して複数の予測を行うセグメンテーションベースの検出器として設計されています。これらの予測は、元のテキストインスタンスを異なるスケールに縮小して生成された様々な「カーネル」に対応しています。その結果、最終的な検出は、最小スケールのカーネルから最大かつ完全な形状を持つテキストインスタンスへと徐々に拡大する進行的なスケール拡張アルゴリズムを通じて行われます。最小カーネル間に大きな幾何学的余裕があることから、当方法は隣接するテキストインスタンスを区別し、任意の形状に対して頑健であることが確認されています。ICDAR 2015およびICDAR 2017 MLTベンチマークでの最先端の結果がPSENetの高い効果性をさらに証明しています。特に、曲線テキストデータセットSCUT-CTW1500において、PSENetは従来の最高記録よりも絶対値で6.37%上回っています。コードはhttps://github.com/whai362/PSENetで公開される予定です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています