6ヶ月前

オブジェクト検出

コンピュータビジョン

セマンティックセグメンテーション

コンピュータビジョン

Tingbo Hou Adel Ahmadyan Liangkai Zhang Jianing Wei Matthias Grundmann

概要

本稿では、RGB画像から未観測の物体を検出するとともに、その3次元姿勢を推定する問題に取り組む。我々は、モバイルデバイスに適した2つの軽量ネットワーク、MobilePose-BaseおよびMobilePose-Shapeを提案する。前者は姿勢に関する監督情報のみが利用可能な場合に用いられ、後者は形状に関する監督情報（すなわち、弱い監督情報であっても）が利用可能な場合に用いる。従来の手法で用いられる形状特徴（セグメンテーションマップや座標マップなど）を再検討し、ピクセルレベルでの形状監督が姿勢推定にどのように、またなぜ効果を発揮するかを解説する。その結果、MobilePose-Shapeにおいて形状推定を中間層として導入し、ネットワークが形状から姿勢を学習できるように設計した。本モデルは、実データと合成データを混合して訓練し、弱いかつノイズの多い形状監督を用いている。モデルは極めて軽量であり、現代のモバイルデバイス上でリアルタイムに動作可能（例：Galaxy S20では36 FPS）である。従来のシングルショット手法と比較して、モデルサイズやパラメータ数が著しく小さい（モデルサイズまたはパラメータ数で2～3％程度）にもかかわらず、より高い精度を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

オブジェクト検出

コンピュータビジョン

セマンティックセグメンテーション

コンピュータビジョン

Tingbo Hou Adel Ahmadyan Liangkai Zhang Jianing Wei Matthias Grundmann

概要

本稿では、RGB画像から未観測の物体を検出するとともに、その3次元姿勢を推定する問題に取り組む。我々は、モバイルデバイスに適した2つの軽量ネットワーク、MobilePose-BaseおよびMobilePose-Shapeを提案する。前者は姿勢に関する監督情報のみが利用可能な場合に用いられ、後者は形状に関する監督情報（すなわち、弱い監督情報であっても）が利用可能な場合に用いる。従来の手法で用いられる形状特徴（セグメンテーションマップや座標マップなど）を再検討し、ピクセルレベルでの形状監督が姿勢推定にどのように、またなぜ効果を発揮するかを解説する。その結果、MobilePose-Shapeにおいて形状推定を中間層として導入し、ネットワークが形状から姿勢を学習できるように設計した。本モデルは、実データと合成データを混合して訓練し、弱いかつノイズの多い形状監督を用いている。モデルは極めて軽量であり、現代のモバイルデバイス上でリアルタイムに動作可能（例：Galaxy S20では36 FPS）である。従来のシングルショット手法と比較して、モデルサイズやパラメータ数が著しく小さい（モデルサイズまたはパラメータ数で2～3％程度）にもかかわらず、より高い精度を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています