HyperAIHyperAI

Command Palette

Search for a command to run...

SAFL:ファーカス・ロスを用いた自己注意機構を備えたシーンテキスト認識器

Bao Hieu Tran Thanh Le-Cong Huu Manh Nguyen Duc Anh Le Thanh Hung Nguyen Phi Le Nguyen

概要

近年、シーンテキスト認識は、多様な応用分野における重要性から、学術界および実用ユーザーの間で世界的な関心を獲得している。光学文字認識(OCR)における進展にもかかわらず、歪みや不規則な配置といった固有の課題により、シーンテキスト認識は依然として困難な課題である。既存の多数のアプローチは、主に再帰型または畳み込み型ニューラルネットワークを活用している。しかし、再帰型ニューラルネットワーク(RNN)は逐次計算による遅い学習速度と、勾配消失やボトルネック問題を抱える一方、畳み込みニューラルネットワーク(CNN)は複雑さと性能の間にトレードオフが生じる。本論文では、既存手法の限界を克服するため、フオーカル損失を用いた自己注意機構(self-attention)に基づくニューラルネットワークモデル「SAFL」を提案する。負の対数尤度の代わりにフオーカル損失を採用することで、モデルは低頻度サンプルの学習に重点を置くことができる。さらに、テキストの歪みや不規則性に対処するため、空間変換ネットワーク(Spatial Transformer Network: STN)を用いて認識ネットワークに渡す前にテキストを補正する。提案手法の性能を7つのベンチマークと比較する実験を行った結果、数値的な評価において本モデルが最も優れた性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SAFL:ファーカス・ロスを用いた自己注意機構を備えたシーンテキスト認識器 | 記事 | HyperAI超神経