Command Palette
Search for a command to run...
SNIPER: 効率的な多スケール学習
SNIPER: 効率的な多スケール学習
Bharat Singh Mahyar Najibi Larry S. Davis
概要
私たちはSNIPER(スナイパー)というアルゴリズムを紹介します。これは、インスタンスレベルの視覚認識タスクにおいて効率的なマルチスケール学習を行うためのものです。SNIPERは、画像ピラミッドのすべてのピクセルを処理するのではなく、真実値インスタンス(以下、「チップ」と呼びます)周辺のコンテキスト領域を適切なスケールで処理します。背景サンプリングのために、これらのコンテキスト領域は短い学習スケジュールで訓練された領域提案ネットワークから抽出された提案を使用して生成されます。したがって、学習中の各画像から生成されるチップの数はシーンの複雑さに基づいて適応的に変化します。COCOデータセットにおいて800x1333ピクセルでの単一スケール学習に比べて、SNIPERはわずか30%以上のピクセルしか処理しません。しかし、1400x2000ピクセルのような極端な解像度の画像ピラミッドからのサンプルも観測します。SNIPERは512x512ピクセルの低解像度チップを再サンプリングして動作するため、ResNet-101バックボーンを使用しても単一GPU上で最大20のバッチサイズを持つことができます。これにより、複数のGPU間でバッチ正規化統計を同期させる必要なく、学習中にバッチ正規化を利用することができます。SNIPERは、オブジェクト検出などのインスタンスレベル認識タスクの学習を画像分類のプロトコルに近づけ、高解像度画像での学習が重要であるという一般的な指針が必ずしも正確ではない可能性を示唆しています。私たちがFaster-RCNNとResNet-101バックボーンに基づいて実装したSNIPERは、COCOデータセットにおける境界ボックス検出においてmAP(平均精度)47.6%を達成しており、推論時には単一GPUで秒間5枚の画像を処理できます。コードは以下のURLから入手可能です: https://github.com/MahyarNajibi/SNIPER/