要約
近年、シーンテキスト認識はその幅広い応用分野における重要性から、学術界および産業界の関心を大きく集めている。文書テキストを対象とした光学文字認識(OCR)システムはすでに成熟しているものの、シーンテキスト認識は依然として大きな課題である。背景、外観、レイアウトの多様な変化が顕著であり、従来のOCR手法では効果的に対処できない。シーンテキスト認識の近年の進展は、深層学習に基づく認識モデルの成功に支えられている。その中には、畳み込みニューラルネットワーク(CNN)を用いて文字単位でテキストを認識する手法、CNNを用いて単語を分類する手法、およびCNNと再帰型ニューラルネットワーク(RNN)を組み合わせて文字列を認識する手法が含まれる。これらの手法は高い成果を上げているが、水平かつ正面方向でない、曲がったレイアウトを持つなど、不規則なテキスト(irregular text)に対する明示的な対処は行っていない。自然シーンでは不規則なテキストが頻繁に出現する。図1に示すように、回転したテキスト、透視変形テキスト[49]、曲線状のテキストなどが典型的な例である。こうした不規則性に対して不変性を備えて設計されていない従来の手法は、こうしたテキストの認識において困難を抱えることが多い。