11日前
意味的推論ネットワークを用いた高精度なシーンテキスト認識
Deli Yu, Xuan Li, Chengquan Zhang, Junyu Han, Jingtuo Liu, Errui Ding

要約
シーンテキスト画像には、視覚的なテクスチャと意味情報という二つのレベルの内容が含まれている。近年、シーンテキスト認識手法は著しい進展を遂げてきたが、認識を支援するための意味情報の掘り起こしに関する研究はまだ十分に注目されておらず、これまでの研究では意味情報を暗黙的にモデル化するためのRNN類似構造のみが検討されてきた。しかしながら、我々はRNNに基づく手法に時間依存的なデコード方式や意味的文脈の一方通行的逐次伝達といった明確な欠点が存在することに着目した。これらは意味情報の有効活用と計算効率の向上を大きく制限している。こうした課題を緩和するために、正確なシーンテキスト認識を実現するための新しいエンドツーエンド学習可能なフレームワークである意味推論ネットワーク(Semantic Reasoning Network, SRN)を提案する。本手法では、多方向並列伝達によってグローバルな意味的文脈を捉えるためのグローバル意味推論モジュール(Global Semantic Reasoning Module, GSRM)を導入している。7つの公開ベンチマーク(通常のテキスト、不規則なテキスト、非ラテン文字の長文を含む)における最先端の結果から、本手法の有効性と頑健性が実証された。さらに、SRNはRNNベースの手法と比較して顕著な高速性を示しており、実用的な応用においても高い価値を持つことが示された。