11日前

シーンテキスト認識における実データを試すべき理由

Vladimir Loginov
シーンテキスト認識における実データを試すべき理由
要約

テキスト認識分野における最近の研究進展により、認識性能は新たな水準に達した。しかし長年にわたり、大規模な人手による自然テキストラベル付きデータセットの不足により、研究者たちはテキスト認識モデルの学習に合成データを用いる他なかった。確かに、MJSynthやSynthTestといった代表的な合成データセットはそれぞれ数百万枚の画像を含むと規模が非常に大きいが、ICDARなどの自然データセットと比べると多様性に欠ける場合がある。幸いなことに、最近公開されたOpenImages V5データセットのテキスト認識アノテーションは、合成データセットと同等のサンプル数を備えつつ、より多様な例を含んでいる。本研究では、これに「Yet Another Mask Text Spotter」に搭載されたテキスト認識ヘッドアーキテクチャを適用したところ、最先端(SOTA)水準の結果を得ることができ、一部のデータセットでは既存のSOTAモデルを上回る性能を達成した。本論文では、さらに新しいテキスト認識モデルの提案も行っている。モデルのコードは公開されている。

シーンテキスト認識における実データを試すべき理由 | 最新論文 | HyperAI超神経