
要約
最新の歩行者検出モデルは多くのベンチマークで大きな成功を収めています。しかし、これらのモデルは大量のアノテーション情報が必要であり、ラベリングプロセスには多くの時間と労力がかかることが一般的です。本論文では、ラベル付き歩行者データを生成し、それを歩行者検出器の学習に適応させる方法を提案します。提案するフレームワークは、複数の識別器を使用した生成対抗ネットワーク(Generative Adversarial Network: GAN)に基づいており、現実的な歩行者の合成と背景コンテキストの学習を同時に試みます。異なるサイズの歩行者に対処するために、識別器に空間ピラミッドプーリング(Spatial Pyramid Pooling: SPP)層を採用しています。我々は2つのベンチマークで実験を行い、その結果、提案手法が様々な背景画像や詳細レベルにおいて滑らかに歩行者を合成できることを示しました。提案手法の定量評価のために、生成されたサンプルを基準となる歩行者検出器の訓練データに追加し、合成画像が検出器の性能向上に寄与することを確認しました。