2ヶ月前

注目に基づくストリートビュー画像からの構造化情報抽出

Zbigniew Wojna; Alex Gorban; Dar-Shyang Lee; Kevin Murphy; Qian Yu; Yeqing Li; Julian Ibarz
注目に基づくストリートビュー画像からの構造化情報抽出
要約

私たちは、CNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)および新規の注意メカニズムを基にしたニューラルネットワークモデルを提案します。このモデルは、難易度の高いフランス語道路標識データセット(FSNS)において84.2%の精度を達成し、従来の最先端技術(Smith'16)が達成した72.46%を大幅に上回りました。さらに、私たちの新しい手法は、以前の手法よりもずっと単純で汎用性が高いです。当モデルの汎用性を示すために、Google Street Viewから派生したより難しいデータセットでも優れた性能を発揮することを示します。このデータセットでは、店舗前面から事業所名を抽出することが目標となっています。最後に、異なる深さを持つCNN特徴量抽出器を使用することによる速度と精度のトレードオフについて研究しました。驚くことに、より深い層が必ずしも良いとは限らないことが判明しました(精度だけでなく速度においても)。結果として得られた当モデルは単純でありながら高精度かつ高速であるため、さまざまな困難な実世界におけるテキスト抽出問題に対して大規模に利用することが可能です。

注目に基づくストリートビュー画像からの構造化情報抽出 | 最新論文 | HyperAI超神経