2ヶ月前
BN-DRISHTI: 手書きテキスト画像のインスタンスレベルセグメンテーションを用いたベンガル語文書認識
Jubaer, Sheikh Mohammad ; Tabassum, Nazifa ; Rahman, Md. Ataur ; Islam, Mohammad Khairul

要約
手書き認識は、ベンガル語などの多くの話者が使用する言語において、書字の曲線的な性質による行と単語の分割の複雑さや高品質なデータセットの不足により、依然として課題となっています。本論文では、この分割問題を解決するために、最新の手法(BN-DRISHTI)を導入します。この手法は、深層学習に基づく物体検出フレームワーク(YOLO)とホフ変換およびアフィン変換を組み合わせて歪み補正を行います。しかし、深層学習モデルの訓練には大量のデータが必要です。そこで、私たちは786枚の完全ページの手書きベンガル語文書画像からなるBN-HTRdデータセットの拡張版も提示します。このデータセットには、行レベルと単語レベルでの分割用アノテーションと、単語認識用の対応する基準真値が含まれています。私たちのデータセットのテスト部分での評価結果は、行分割でF値99.97%、単語分割で98%となりました。比較分析のために、BanglaWriting, WBSUBNdb_text, ICDAR 2013という3つの外部ベンガル語手書きデータセットを使用しましたが、これらのデータセットにおいても当システムは大幅に優れた性能を示し、未知のサンプルに対する当アプローチの有効性をさらに証明しています。