16日前

I3CL:任意形状シーンテキスト検出のためのインスタンス内およびインスタンス間協調学習

Bo Du, Jian Ye, Jing Zhang, Juhua Liu, Dacheng Tao
I3CL:任意形状シーンテキスト検出のためのインスタンス内およびインスタンス間協調学習
要約

自然シーンにおける任意形状テキスト検出の従来手法は、以下の2つの重要な課題に直面している。1)テキストインスタンス内のギャップ部での断片的検出;2)多様な背景コンテキストを有する任意形状テキストインスタンスに対する不正確な検出。これらの課題に対処するため、本研究では「イントラ・インスタンスおよびインタ・インスタンス協調学習(Intra- and Inter-Instance Collaborative Learning, I3CL)」と呼ばれる新規な手法を提案する。まず、第1の課題に対処するため、複数の受容場(receptive fields)を持つ効果的な畳み込みモジュールを設計し、テキストインスタンス内部における局所的および長距離的な特徴表現を協調的に学習可能とする。次に、第2の課題に対処するため、異なるテキストインスタンス間の依存関係を活用するインスタンスベースのTransformerモジュールと、共有背景から得られる意味的コンテキストを活用するグローバルコンテキストモジュールを提案する。これらは協調的により判別力の高いテキスト特徴表現を学習可能となる。このようにして、I3CLは一貫したエンド・ツー・エンド学習可能なフレームワーク内で、イントラ・インスタンスおよびインタ・インスタンス間の依存関係を効果的に統合的に活用できる。さらに、未ラベルデータを効果的に活用するため、アンサンブル戦略を用いた擬似ラベルを活用する効果的な半教師付き学習手法も設計した。あらゆる補助的な工夫を加えず、実験結果は、三つの困難な公開ベンチマークにおいて、新たな最先端性能を達成した。具体的には、ICDAR2019-ArTでF-measure 77.5%、Total-Textで86.9%、CTW-1500で86.4%の成果を達成した。特に、ResNeSt-101をバックボーンとする本手法は、ICDAR2019-ArTのリーダーボードで1位を獲得した。本研究のソースコードは、https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection にて公開される予定である。

I3CL:任意形状シーンテキスト検出のためのインスタンス内およびインスタンス間協調学習 | 最新論文 | HyperAI超神経