11日前

シーンテキスト認識のためのマルチグレイン予測

Peng Wang, Cheng Da, Cong Yao
シーンテキスト認識のためのマルチグレイン予測
要約

シーンテキスト認識(Scene Text Recognition, STR)は、長年にわたりコンピュータビジョン分野で活発に研究されているトピックである。この困難な課題に対処するため、多数の革新的な手法が次々と提案されてきた。近年では、STRモデルに言語知識を組み込むアプローチが顕著なトレンドとなっている。本研究では、視覚変換器(Vision Transformer, ViT)の最近の進展に着想を得て、概念的に単純ながら強力な視覚STRモデルを構築した。このモデルはViTを基盤としており、純粋な視覚モデルおよび言語拡張型手法を含む従来の最先端モデルを上回る性能を達成している。さらに、言語知識を統合するために、多段階予測戦略(Multi-Granularity Prediction, MGP)を提案した。この戦略は、言語モダリティの情報を暗黙的にモデルに注入するもので、従来の文字レベル表現に加えて、自然言語処理(NLP)で広く用いられるサワード表現(BPEおよびWordPiece)を出力空間に導入する。なお、独立した言語モデル(LM)は採用していない。この結果得られたアルゴリズム(MGP-STRと命名)は、STRの性能限界をさらに押し上げることに成功した。特に、標準ベンチマーク上での平均認識精度が93.35%に達した。コードは以下のURLで公開されている:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR。

シーンテキスト認識のためのマルチグレイン予測 | 最新論文 | HyperAI超神経