11日前
複数視点歩行者検出のためのスタックドホモグラフィー変換
{Junsong Yuan, Yuan Li, Qian Zhang, Ming Yang, Jialian Wu, Liangchen Song}

要約
マルチビュー歩行者検出は、複数のカメラビューから鳥瞰図(Bird's Eye View, BEV)における占有マップを予測することを目的とする。このタスクは、2つの課題に直面している:まず、視点からBEVマップへの3次元対応関係をいかに確立するか、次に、複数の視点間で占有情報をどのように統合するかである。本論文では、3次元世界座標系における投影をホモグラフィーのスタックによって近似するという着想に基づき、新たな「スタックドホモグラフィートランスフォーメーション(Stacked HOmography Transformations, SHOT)」手法を提案する。まず、異なる高さレベルにおける地面平面への視点投影を実現するための変換スタックを構築する。その後、ネットワークが変換スタックの尤度を学習できるように、ソフト選択モジュールを設計した。さらに、SHOTの構築に関する理論的解析を詳細に行い、3次元世界座標系における投影近似の精度についても検証した。実証的にSHOTが個々の視点からBEVマップへの正確な対応関係を推定可能であることが確認され、標準評価ベンチマークにおいて新たな最先端性能を達成した。