HyperAIHyperAI

Command Palette

Search for a command to run...

シーンテキスト認識における実データを試すべき理由

Vladimir Loginov

概要

テキスト認識分野における最近の研究進展により、認識性能は新たな水準に達した。しかし長年にわたり、大規模な人手による自然テキストラベル付きデータセットの不足により、研究者たちはテキスト認識モデルの学習に合成データを用いる他なかった。確かに、MJSynthやSynthTestといった代表的な合成データセットはそれぞれ数百万枚の画像を含むと規模が非常に大きいが、ICDARなどの自然データセットと比べると多様性に欠ける場合がある。幸いなことに、最近公開されたOpenImages V5データセットのテキスト認識アノテーションは、合成データセットと同等のサンプル数を備えつつ、より多様な例を含んでいる。本研究では、これに「Yet Another Mask Text Spotter」に搭載されたテキスト認識ヘッドアーキテクチャを適用したところ、最先端(SOTA)水準の結果を得ることができ、一部のデータセットでは既存のSOTAモデルを上回る性能を達成した。本論文では、さらに新しいテキスト認識モデルの提案も行っている。モデルのコードは公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています