
物体検出において、Intersection over Union (IoU) 閾値は頻繁にポジティブ/ネガティブを定義するために使用されます。検出器の訓練に使用される閾値がその \textit{品質} を決定します。一般的に使用される 0.5 の閾値はノイジー(低品質)な検出を引き起こす一方で、より大きな閾値では検出性能がしばしば低下します。この高品質検出のパラドックスには二つの原因があります:1) 大きな閾値により正例サンプルが消失することによる過学習、および 2) 推論時の検出器とテスト仮説間の品質ミスマッチです。これらの問題に対処するため、一連の検出器で構成され、増加する IoU 閾値で訓練される多段階物体検出アーキテクチャである Cascade R-CNN が提案されています。各検出器は順次訓練され、前の検出器の出力を次の訓練セットとして使用します。この再サンプリングにより仮説の品質が段階的に向上し、すべての検出器に対して同等サイズの正例訓練セットを確保しつつ過学習を最小限に抑えます。推論時にも同じカスケードを使用することで、仮説と検出器間の品質ミスマッチを排除します。Cascade R-CNN のシンプルな実装は COCO データセットにおいて最先端の性能を達成しており、VOC, KITTI, CityPerson, WiderFace などの汎用および特定物体検出データセットでの高品質検出性能を大幅に向上させています。最後に、Cascade R-CNN はインスタンスセグメンテーションにも一般化され、Mask R-CNN よりも非自明な改善をもたらしています。将来の研究を促進するため、Caffe (\url{https://github.com/zhaoweicai/cascade-rcnn}) および Detectron (\url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN}) の二つの実装が公開されています。