
要約
物体検出器が遮蔽や変形に対して不変であることを学習するにはどのようにすればよいでしょうか?現在の解決策は、データ駆動型戦略を使用することです。つまり、異なる条件の下で物体インスタンスを含む大規模なデータセットを収集します。最終的な分類器がこれらの例から不変性を学習することを期待しています。しかし、本当にデータセットで全ての遮蔽を見ることができるのでしょうか?我々は、カテゴリと同様に、遮蔽や物体の変形も長尾分布に従うと考えています。一部の遮蔽や変形は非常に稀であり、ほとんど起こらないにもかかわらず、それらの発生に対して不変であるモデルを学習したいのです。本論文では、代替案として新しい解決策を提案します。我々は、遮蔽や変形を持つ例を生成する敵対的ネットワーク(adversarial network)の学習方法を提案します。敵対者の目標は、物体検出器にとって分類が困難な例を作成することです。我々のフレームワークでは、元の検出器と敵対者が共同で学習されます。実験結果によると、VOC07オブジェクト検出チャレンジではFast-RCNNパイプラインと比較して2.3% mAP向上し、VOC2012オブジェクト検出チャレンジでは2.6% mAP向上しました。また、本論文に関連するコードも公開しています。注:mAP (mean Average Precision) は平均精度率を意味し、物体検出タスクにおける性能指標の一つです。VOC (PASCAL Visual Object Classes) は画像認識や物体検出などの評価を行うための標準的なベンチマークデータセットです。Fast-RCNN は高速な物体検出アルゴリズムの一種です。