2ヶ月前

DETRとR-CNNの性能ギャップを埋める:文書画像におけるグラフィカルオブジェクト検出

Shehzadi, Tahira ; Hashmi, Khurram Azeem ; Stricker, Didier ; Liwicki, Marcus ; Afzal, Muhammad Zeshan
DETRとR-CNNの性能ギャップを埋める:文書画像におけるグラフィカルオブジェクト検出
要約

本論文は、DETRとR-CNNのグラフィカルオブジェクト検出における性能差を埋める重要な一歩を踏み出しています。既存のグラフィカルオブジェクト検出手法は、CNN(畳み込みニューラルネットワーク)ベースの物体検出方法の最近の進歩により、著しい進展を遂げています。最近では、Transformerベースの検出器が一般的な物体検出性能を大幅に向上させ、手動で設計された特徴量やNon-Maximum Suppression (NMS)などの後処理ステップを使用する必要がなくなりました。しかし、このような強化されたTransformerベースの検出アルゴリズムがグラフィカルオブジェクト検出問題において有効であるかどうかはまだ確認されていません。本研究では、DETRの最新の進展から着想を得て、既存の検出用Transformerを若干修正してグラフィカルオブジェクト検出に適用しました。具体的には、ポイント、アンカーボックスを使用し、アンカーに正規および負規ノイズを加えることで性能向上を目指しました。これらの変更により、異なるサイズやアスペクト比を持つ物体をより適切に扱うことができ、物体位置やサイズの小さな変動に対する堅牢性が向上し、物体と非物体との画像識別能力も改善されました。我々は提案手法を4つのグラフィカルデータセット(PubTables, TableBank, NTable, PubLaynet)で評価しました。DETRにクエリ変更を取り入れることで、TableBank, PubLaynet, PubTablesにおいてそれぞれmAP(平均精度)96.9%, 95.7%, 99.3%という新しい最先端結果を達成し、先行研究を超えることができました。広範なアブレーション実験からの結果は、Transformerベースの手法が他のアプリケーションと同様に文書分析においてもより効果的であることを示しています。本研究を通じて、文書画像分析における検出用Transformerの利用に関する研究への注目を集めることを期待しています。