2ヶ月前
シーンテキスト認識モデルの比較に何が問題があるのか?データセットとモデル分析
Baek, Jeonghun ; Kim, Geewook ; Lee, Junyeop ; Park, Sungrae ; Han, Dongyoon ; Yun, Sangdoo ; Oh, Seong Joon ; Lee, Hwalsuk

要約
近年、多くの新しいシーンテキスト認識(STR)モデルの提案がなされてきました。各々のモデルは技術の境界を押し広げたと主張していますが、訓練データセットや評価データセットの選択が一貫性を欠いているため、全体的な公平な比較がほとんど行われていませんでした。本論文では、この困難に取り組むために3つの主要な貢献を行います。第一に、訓練データセットと評価データセットの不整合を検討し、その不整合から生じる性能ギャップを分析します。第二に、既存の大部分のSTRモデルが適合する統一された4段階STRフレームワークを導入します。このフレームワークを使用することで、以前に提案されたSTRモジュールの広範な評価を行い、未探索のモジュール組み合わせを見つけることが可能になります。第三に、精度、速度、メモリ要件という観点から、一貫した訓練および評価データセットを使用して各モジュールの性能への貢献度を分析します。このような分析により、既存のモジュールの性能向上を理解する際の一貫性がない現在の比較における障壁を取り除くことができます。