8日前

ABINet++:シーンテキストスポットティングにおける自律的・双方向的・反復的言語モデリング

Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang
ABINet++:シーンテキストスポットティングにおける自律的・双方向的・反復的言語モデリング
要約

シーンテキストスポットティングは、その多様な応用分野からコンピュータビジョン分野において極めて重要な課題である。近年の手法では、単なる視覚的分類にとどまらず、困難な認識に向けた言語知識の導入が試みられている。しかし、エンドツーエンドの深層ネットワークにおいて言語規則を効果的にモデル化する方法は、依然として研究上の課題である。本論文では、言語モデルの限界が以下の3点に起因すると主張する:1)言語モデルの暗黙的表現;2)単方向の特徴表現;3)ノイズを含む入力に対する言語モデル。これに対応して、自律的(autonomous)、双方向的(bidirectional)、反復的(iterative)なABINet++を提案する。まず、自律性の観点から、認識器を視覚モデルと言語モデルに分離し、両モデル間の勾配伝播を遮断することで、明示的な言語モデリングを強制する。次に、双方向特徴表現に基づき、新たな双方向クローズネットワーク(BCN)を言語モデルとして提案する。さらに、言語モデルに対する反復的補正の実行方式を導入することで、ノイズ入力の影響を効果的に軽減する。最後に、長文認識におけるABINet++の性能をさらに向上させるため、U-Net内部にTransformerユニットを埋め込み水平方向の特徴を統合する手法を提案するとともに、文字の順序と内容を統合して文字特徴に正確に注目できる位置と内容を考慮したアテンションモジュールを設計した。ABINet++は、シーンテキスト認識およびシーンテキストスポットティングのベンチマークにおいて、最先端の性能を達成しており、特に低品質画像における様々な環境下でも本手法の優位性を一貫して示している。さらに、英語および中国語を含む広範な実験により、本研究の言語モデリング手法を組み込んだテキストスポットタは、一般的に用いられるアテンションベースの認識器と比較して、精度と処理速度の両面で顕著な性能向上を達成することが実証された。

ABINet++:シーンテキストスポットティングにおける自律的・双方向的・反復的言語モデリング | 最新論文 | HyperAI超神経