2ヶ月前

時系列姿勢推定の学習：ラベルが希薄なビデオから

Gedas Bertasius; Christoph Feichtenhofer; Du Tran; Jianbo Shi; Lorenzo Torresani

要約

現代のビデオにおける多人物姿勢推定手法は、大量の詳細なアノテーションを必要とします。しかし、ビデオのすべてのフレームをラベリングすることはコストがかかり、労力が大きいという問題があります。このため、詳細なアノテーションの必要性を軽減するために、スパースアノテーション（kフレームごと）を持つ訓練用ビデオを活用して、時間的な詳細な姿勢伝播と推定を行うPoseWarperネットワークを提案します。ラベリングされたフレームAと未ラベリングのフレームBのビデオフレームペアが与えられた場合、我々のモデルはフレームBから得られる特徴量を使用し、変形畳み込みを通じてAとB間の姿勢ワーピングを暗黙的に学習することで、フレームAでの人物姿勢を予測するように訓練します。我々は、訓練されたPoseWarperがいくつかの応用に活用できることを示しています。まず、推論時にはネットワークの適用方向を逆転させることで、手動でラベリングされたフレームから未ラベリングのフレームへ姿勢情報を伝播させることが可能です。これにより、わずかな手動ラベリング済みフレームのみで全体のビデオに対する姿勢アノテーションを生成することが可能になります。光学フローに基づく現代的なラベル伝播手法と比較すると、我々のワーピング機構は遥かにコンパクト（6M対39Mパラメータ）であり、かつより正確（mAP 88.7% 対 83.8%）です。また、我々はポーズ推定器の精度向上のために、手動ラベルに加えて我々が伝播したポーズデータを使用して拡張データセット上で訓練を行うことができることも示しています。最後に、推論時に近傍フレームからの時間的なポーズ情報を集約するためにPoseWarperを利用することができます。これにより、PoseTrack2017およびPoseTrack2018データセットにおいて最先端のポーズ検出結果を達成することが可能になりました。コードは以下のURLで公開されています: https://github.com/facebookresearch/PoseWarper.