
要約
2段階型オブジェクト検出の確率的解釈を提案する。本研究では、この確率的解釈が、従来の経験的手法における多くの訓練実践を理論的に説明できることを示す。さらに、2段階検出パイプラインに対する改良の可能性を示唆する。具体的には、第1段階では適切な「オブジェクト対背景」の尤度を推論するべきであり、その尤度が検出器全体のスコアに直接反映されるべきである。標準的な領域提案ネットワーク(RPN)はこの尤度を十分に推論できないが、多くの1段階型検出器はその能力を有している。本研究では、最先端の1段階型検出器を任意に用いて、確率的2段階型検出器を構築する方法を提示する。得られた検出器は、元となった1段階型および2段階型の先行研究をすべて上回る速度と精度を達成する。単一スケールでのテストにおいて、COCO test-devで56.4 mAPを達成し、公開済みのすべての結果を上回る性能を示した。また、軽量なバックボーンを用いた場合、Titan Xp上で33 fpsの推論速度でCOCOで49.2 mAPを達成し、広く使われているYOLOv4モデルをも上回る性能を発揮した。