2ヶ月前
Persis: ペルシャ文字認識のための畳み込みニューラルネットワークを使用したパイプライン
Mohammadian, Mehrdad ; Maleki, Neda ; Olsson, Tobias ; Ahlgren, Fredrik

要約
デザイン作業で適切なフォントに遭遇したが、その名前を知らない場合どうすればよいでしょうか?ビジュアルフォント認識(VFR)システムは、画像中のフォントの書体を識別するために使用されます。これらのシステムは、グラフィックデザイナーが画像で使用されているフォントを識別するのに役立ちます。また、VFRシステムは光学文字認識(OCR)システムの速度と精度の向上にも貢献します。本論文では、ペルシャ語フォント認識分野における最初の公開データセットを紹介し、畳み込みニューラルネットワーク(CNN)を用いてこの問題に対処しています。結果は、提案されたパイプラインが新しいデータセットでトップ1精度78.0%、IDPL-PFODデータセットで89.1%、KAFDデータセットで94.5%を達成したことを示しています。さらに、提案されたデータセットの1サンプルに対する全体のパイプラインに要する平均時間はCPUで0.54秒、GPUで0.017秒でした。結論として、特徴抽出や二値化、正規化などの追加的な前処理ステップなしで、CNN手法を使用してペルシャ語フォントを認識することが可能であることが示されました。