
要約
多スペクトル歩行者検出は、多くの24時間対応のアプリケーション(例:ビデオ監視や自動運転)において重要な能力を持つことから、特に照明条件が不足している場合に研究コミュニティからの注目を集めています。私たちはKAISTデータセット上で人間の基準を設定し、現在の最高峰の検出器と人間の性能との間にまだ大きな差があることを明らかにしました。この差を縮めるために、私たちはネットワーク融合アーキテクチャを提案します。このアーキテクチャは、歩行者の提案を行う多スペクトルプロポーザルネットワークと、その後でハードネガティブから歩行者インスタンスを区別する多スペクトル分類ネットワークで構成されています。統合されたネットワークは、歩行者検出とセマンティックセグメンテーションのタスクを共同で最適化することで学習されます。最終的な検出結果は、異なるモダリティからの出力および2つのステージを統合することによって得られます。本手法はKAISTデータセット上で最新の方法を大幅に上回りながらも高速性を維持しています。さらに、KAISTデータセットのトレーニングアノテーションの清掃版を作成し、異なる種類のアノテーションエラーが及ぼす影響を調査しました。今後の研究では、アノテーションエラーによる干渉を取り除いた清掃版が有益であると考えられます。