要約
多波長 pedestrian 検出は、照明条件や天候の変化に対応する有望なマルチモーダルな解決策として、活発に研究されている。多くのマルチモーダルアプローチは、すべての入力データが完全に重複していることを前提としている。しかし、既存のセンサ構成の複雑さから、このような完全重複データペアは実用的な応用において一般的ではない。本論文では、すべての入力データがペア化されていない状況における多波長 pedestrian 検出に取り組む。そのため、入力画像ペアの状態に応じて別個のラベルを割り当てることで、入力状態に依存する特徴を学習するマルチラベル学習を活用する、新しい単段階検出フレームワークを提案する。また、幾何変換を用いて非ペア化された多波長画像を合成する新しい拡張戦略も提示する。広範な実験を通じて、立体視環境下における完全重複画像および部分重複画像を含む、さまざまな現実世界の条件下で提案手法の有効性を示した。コードおよびデモ動画は、https://github.com/sejong-rcv/MLPD-Multi-Label-Pedestrian-Detection で公開されている。