1ヶ月前
LSTMポーズマシン
Yue Luo; Jimmy Ren; Zhouxia Wang; Wenxiu Sun; Jinshan Pan; Jianbo Liu; Jiahao Pang; Liang Lin

要約
私たちは、単一画像の人間姿勢推定における最近の最先端の結果が、多段階畳み込みニューラルネットワーク(CNN)によって達成されていることを観察しました。静止画において優れた性能を発揮する一方で、これらのモデルを動画に適用すると計算量が増大し、性能が低下したりフリッカーが発生したりする問題があります。このような非最適な結果は、主に時系列的な幾何学的一貫性を強制する能力の欠如、画像品質の著しい劣化(例えば、モーションブラーと遮蔽)への対応不足、および動画フレーム間の時間的相関を捉える能力の欠如によるものです。本論文では、これらの問題に対処するために新しい再帰型ネットワークを提案します。多段階CNNに重み共有スキームを導入することで、それを再帰型ニューラルネットワーク(RNN)として書き換えることができることを示しました。この特性により、複数のネットワーク段階間の関係が分離され、動画に対してネットワークを呼び出す速度が大幅に向上します。また、動画フレーム間での長短期記憶(LSTM)ユニットの採用も可能になります。私たちは、このようなメモリ拡張されたRNNがフレーム間の幾何学的一貫性を強制する上で非常に効果的であることを確認しました。また、動画での入力品質劣化にも適切に対応し、順次出力を安定させることが成功しています。実験では、私たちの手法が2つの大規模な動画画像姿勢推定ベンチマークにおいて現行の最先端手法よりも大幅に優れていることが示されました。さらに、LSTM内のメモリセルについて探り、なぜそのような機構が動画画像に基づく姿勢推定予測に利益をもたらすのかについて考察を行いました。