HyperAIHyperAI

Command Palette

Search for a command to run...

シーンテキスト認識のためのマルチグレイン予測

Peng Wang Cheng Da Cong Yao

概要

シーンテキスト認識(Scene Text Recognition, STR)は、長年にわたりコンピュータビジョン分野で活発に研究されているトピックである。この困難な課題に対処するため、多数の革新的な手法が次々と提案されてきた。近年では、STRモデルに言語知識を組み込むアプローチが顕著なトレンドとなっている。本研究では、視覚変換器(Vision Transformer, ViT)の最近の進展に着想を得て、概念的に単純ながら強力な視覚STRモデルを構築した。このモデルはViTを基盤としており、純粋な視覚モデルおよび言語拡張型手法を含む従来の最先端モデルを上回る性能を達成している。さらに、言語知識を統合するために、多段階予測戦略(Multi-Granularity Prediction, MGP)を提案した。この戦略は、言語モダリティの情報を暗黙的にモデルに注入するもので、従来の文字レベル表現に加えて、自然言語処理(NLP)で広く用いられるサワード表現(BPEおよびWordPiece)を出力空間に導入する。なお、独立した言語モデル(LM)は採用していない。この結果得られたアルゴリズム(MGP-STRと命名)は、STRの性能限界をさらに押し上げることに成功した。特に、標準ベンチマーク上での平均認識精度が93.35%に達した。コードは以下のURLで公開されている:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています