
要約
絶対カメラポーズ回帰器は、撮影された画像のみからカメラの位置と姿勢を推定する手法である。従来、畳み込みベースのバックボーンと多層パーセプトロン(MLP)ヘッドを用いて、画像とポーズラベルを用いて学習を行い、一度に1つの参照シーンを埋め込む形でモデルを構築していた。近年、MLPヘッドを複数の全結合層に置き換えることで、複数のシーンを同時に学習するアーキテクチャへの拡張が行われた。本研究では、Transformerを用いた複数シーンの絶対カメラポーズ回帰を提案する。ここで、エンコーダは自己注意機構(self-attention)を用いて活性マップを統合し、デコーダは潜在特徴量とシーンのエンコーディングを組み合わせて候補となるポーズ予測を生成する。この機構により、モデルは局所化に有用な一般的な特徴に注目しつつ、複数のシーンを並列で埋め込むことが可能となる。我々は、一般的に用いられる屋内および屋外データセット上で本手法を評価し、複数シーンおよび最先端の単一シーン向け絶対ポーズ回帰器を上回ることを示した。実装コードは、https://github.com/yolish/multi-scene-pose-transformer にて公開している。