11日前

視覚的意味論は、シーンテキスト認識におけるテキスト推論をより効果的に可能にする

Yue He, Chen Chen, Jing Zhang, Juhua Liu, Fengxiang He, Chaoyue Wang, Bo Du

要約

従来のシーンテキスト認識（STR）手法は、視覚認識（VR）モデルが予測する1次元文字列の同時確率を最適化するために言語モデルを用いるが、これにより文字インスタンス内および間における視覚的意味の2次元空間的文脈が無視されてしまうため、任意形状のシーンテキストへの一般化能力に欠ける。この問題に対処するため、本論文では、視覚的意味に基づいたテキスト推論を初めて試みる。技術的には、VRモデルが予測する文字領域マップをもとに、各インスタンスに対してサブグラフを構築する。ここで、ノードはそのインスタンス内のピクセルを表し、空間的類似性に基づいてノード間にエッジを接続する。その後、これらのサブグラフを根ノードによって順次連結し、統合されたグラフとして統合する。このグラフを基盤として、交差エントロピー損失で監視されるグラフ畳み込みネットワークを用いたテキスト推論機構（GTR）を提案する。GTRは、代表的なSTRモデルに容易に統合可能であり、より優れたテキスト推論能力により性能を向上させる。特に、セグメンテーションベースのSTRベースラインにおける言語モデルと並列にGTRを配置することで、S-GTRと呼ばれるモデルを構築した。これにより、相互学習を通じて視覚的・言語的補完性を効果的に活用できる。S-GTRは6つの困難なSTRベンチマークで新たな最先端性能を達成し、多言語データセットにも良好な一般化能力を示した。コードは https://github.com/adeline-cs/GTR で公開されている。