11日前
MobilePose:弱形状教師信号を用いた未観測物体に対するリアルタイムポーズ推定
Tingbo Hou, Adel Ahmadyan, Liangkai Zhang, Jianing Wei, Matthias Grundmann

要約
本稿では、RGB画像から未観測の物体を検出するとともに、その3次元姿勢を推定する問題に取り組む。我々は、モバイルデバイスに適した2つの軽量ネットワーク、MobilePose-BaseおよびMobilePose-Shapeを提案する。前者は姿勢に関する監督情報のみが利用可能な場合に用いられ、後者は形状に関する監督情報(すなわち、弱い監督情報であっても)が利用可能な場合に用いる。従来の手法で用いられる形状特徴(セグメンテーションマップや座標マップなど)を再検討し、ピクセルレベルでの形状監督が姿勢推定にどのように、またなぜ効果を発揮するかを解説する。その結果、MobilePose-Shapeにおいて形状推定を中間層として導入し、ネットワークが形状から姿勢を学習できるように設計した。本モデルは、実データと合成データを混合して訓練し、弱いかつノイズの多い形状監督を用いている。モデルは極めて軽量であり、現代のモバイルデバイス上でリアルタイムに動作可能(例:Galaxy S20では36 FPS)である。従来のシングルショット手法と比較して、モデルサイズやパラメータ数が著しく小さい(モデルサイズまたはパラメータ数で2~3%程度)にもかかわらず、より高い精度を達成している。