
要約
任意方向対象検出は、航空画像およびシーンテキストを含む視覚シーンにおける基本的なタスクである。本報告では、PP-YOLOEをベースとした効率的なアンカー不要な回転対象検出器であるPP-YOLOE-Rを提案する。PP-YOLOE-Rでは、追加パラメータと計算コストの増加を最小限に抑えつつ、検出精度を向上させるための有効な技術群(bag of tricks)を導入している。その結果、単一スケールでの学習・推論において、PP-YOLOE-R-lおよびPP-YOLOE-R-xはDOTA 1.0データセットでそれぞれ78.14および78.28 mAPを達成し、ほぼすべての他の回転対象検出器を上回っている。マルチスケールでの学習・推論を適用した場合、精度はさらに向上し、PP-YOLOE-R-lおよびPP-YOLOE-R-xはそれぞれ80.02および80.73 mAPを達成した。この条件下では、PP-YOLOE-R-xはすべてのアンカー不要な手法を上回り、最先端のアンカー付き2段階モデルと競争力のある性能を示している。さらに、PP-YOLOE-Rはデプロイに適しており、TensorRTとFP16精度を用いたRTX 2080 Ti上で、PP-YOLOE-R-s/m/l/xはそれぞれ69.8/55.1/48.3/37.1 FPSの推論速度を達成している。ソースコードおよび事前学習済みモデルは、https://github.com/PaddlePaddle/PaddleDetection にて公開されており、本プロジェクトは https://github.com/PaddlePaddle/Paddle によって支援されている。