SSD: Single Shot MultiBox Detector SSD: 単一ショットマルチボックス検出器

私たちは、単一の深層ニューラルネットワークを使用して画像内の物体を検出する方法を提案します。当手法はSSDと命名され、各特徴マップ位置に対して異なるアスペクト比とスケールを持つデフォルトボックスの集合にバウンディングボックスの出力空間を離散化します。予測時には、ネットワークが各デフォルトボックス内に存在する各物体カテゴリのスコアを生成し、物体形状に更好地合せるためにボックスの調整を行います。さらに、ネットワークは異なる解像度を持つ複数の特徴マップからの予測を組み合わせることで、様々なサイズの物体を自然に対処します。SSDモデルは、オブジェクト提案が必要な手法と比較してシンプルです。これは提案生成やその後のピクセルまたは特徴再サンプリングステージを完全に排除し、すべての計算を単一のネットワークにカプセル化しているためです。これにより、検出コンポーネントが必要なシステムへの統合が容易になります。PASCAL VOC、MS COCO、ILSVRCデータセットでの実験結果は、SSDが追加のオブジェクト提案ステップを利用する手法と同等の精度を持ちつつも遥かに高速であることを確認しています。また、学習と推論のために統一されたフレームワークを提供しています。他の単段階手法と比較すると、SSDは入力画像サイズが小さくても大幅に高い精度を達成しています。$300 \times 300$ の入力ではNvidia Titan X上でVOC2007テストで72.1% mAP(平均精度)を58 FPS(フレーム毎秒)で達成し、$500 \times 500$ の入力では75.1% mAPを達成しており、同様の最先端Faster R-CNNモデルよりも優れています。コードは https://github.com/weiliu89/caffe/tree/ssd から入手可能です。