
要約
本論文では、歩行者検出のタスクに畳み込みニューラルネットワーク(convnets)を用いることを研究しています。最近では多様な成功を収めていますが、歴史的には他の歩行者検出器と比較してconvnetsの性能は劣っていました。私たちは、問題をネットワークに明示的にモデル化すること(例えば、部位や遮蔽のモデリング)を行わず、シンプルな手法でも競争力のある性能が得られることを示します。広範囲な実験を通じて、小さなconvnetsと大きなconvnets、そのアーキテクチャの選択肢、パラメータ、および異なる学習データの影響について分析しています。これには代替タスクでの事前学習も含まれます。CaltechデータセットとKITTIデータセットにおいて最良のconvnet検出器を提示します。Caltechデータセットでは、Caltech1xおよびCaltech10xの学習設定において私たちのconvnetsは最高の性能を達成しました。追加の学習データを使用することで、テスト時に追加データ(光学フロー)を使用する検出器と比べても競争力のある最強のconvnetモデルを開発できました。