15日前

SAFL：ファーカス・ロスを用いた自己注意機構を備えたシーンテキスト認識器

Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung Nguyen, Phi Le Nguyen

要約

近年、シーンテキスト認識は、多様な応用分野における重要性から、学術界および実用ユーザーの間で世界的な関心を獲得している。光学文字認識（OCR）における進展にもかかわらず、歪みや不規則な配置といった固有の課題により、シーンテキスト認識は依然として困難な課題である。既存の多数のアプローチは、主に再帰型または畳み込み型ニューラルネットワークを活用している。しかし、再帰型ニューラルネットワーク（RNN）は逐次計算による遅い学習速度と、勾配消失やボトルネック問題を抱える一方、畳み込みニューラルネットワーク（CNN）は複雑さと性能の間にトレードオフが生じる。本論文では、既存手法の限界を克服するため、フオーカル損失を用いた自己注意機構（self-attention）に基づくニューラルネットワークモデル「SAFL」を提案する。負の対数尤度の代わりにフオーカル損失を採用することで、モデルは低頻度サンプルの学習に重点を置くことができる。さらに、テキストの歪みや不規則性に対処するため、空間変換ネットワーク（Spatial Transformer Network: STN）を用いて認識ネットワークに渡す前にテキストを補正する。提案手法の性能を7つのベンチマークと比較する実験を行った結果、数値的な評価において本モデルが最も優れた性能を達成した。