HyperAIHyperAI

Command Palette

Search for a command to run...

視覚的意味論は、シーンテキスト認識におけるテキスト推論をより効果的に可能にする

Yue He Chen Chen Jing Zhang Juhua Liu Fengxiang He Chaoyue Wang Bo Du

概要

従来のシーンテキスト認識(STR)手法は、視覚認識(VR)モデルが予測する1次元文字列の同時確率を最適化するために言語モデルを用いるが、これにより文字インスタンス内および間における視覚的意味の2次元空間的文脈が無視されてしまうため、任意形状のシーンテキストへの一般化能力に欠ける。この問題に対処するため、本論文では、視覚的意味に基づいたテキスト推論を初めて試みる。技術的には、VRモデルが予測する文字領域マップをもとに、各インスタンスに対してサブグラフを構築する。ここで、ノードはそのインスタンス内のピクセルを表し、空間的類似性に基づいてノード間にエッジを接続する。その後、これらのサブグラフを根ノードによって順次連結し、統合されたグラフとして統合する。このグラフを基盤として、交差エントロピー損失で監視されるグラフ畳み込みネットワークを用いたテキスト推論機構(GTR)を提案する。GTRは、代表的なSTRモデルに容易に統合可能であり、より優れたテキスト推論能力により性能を向上させる。特に、セグメンテーションベースのSTRベースラインにおける言語モデルと並列にGTRを配置することで、S-GTRと呼ばれるモデルを構築した。これにより、相互学習を通じて視覚的・言語的補完性を効果的に活用できる。S-GTRは6つの困難なSTRベンチマークで新たな最先端性能を達成し、多言語データセットにも良好な一般化能力を示した。コードは https://github.com/adeline-cs/GTR で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています