1ヶ月前
動的カーネルディスティレーションによる効率的なビデオ姿勢推定
Xuecheng Nie; Yuncheng Li; Linjie Luo; Ning Zhang; Jiashi Feng

要約
既存のビデオベースの人間姿勢推定手法では、大型ネットワークをビデオの各フレームに広範に適用して身体関節を局在化しており、これにより高い計算コストが発生し、実際のアプリケーションにおける低遅延要件を満たすことが難しいという問題があります。この課題に対処するため、我々は新しい動的カーネルディスティレーション(Dynamic Kernel Distillation: DKD)モデルを提案します。このモデルは小型ネットワークを使用してビデオでの人間姿勢を推定することを可能にし、効率性を大幅に向上させます。特に、DKDは軽量なディスティレータを導入し、前フレームからの時間的な手がかりを利用して一回のフィードフォワードでポーズカーネルをオンラインで抽出します。その後、DKDはポーズカーネルと現在のフレームとのマッチングプロシージャに身体関節の局在化を簡素化します。これは単純な畳み込みによって効率的に計算できます。この方法により、DKDはポーズ知識を迅速に一つのフレームから次のフレームへのコンパクトなガイダンスとして転送し、小型ネットワークを使用したビデオベースの姿勢推定が可能になります。訓練プロセスを促進するために、DKDは時間的な敵対的訓練戦略を利用します。この戦略では、時間的な識別器(temporal discriminator)が導入され、長期間にわたる時間的に一貫したポーズカーネルと姿勢推定結果の生成を支援します。Penn ActionおよびSub-JHMDBベンチマークでの実験結果は、DKDが従来の最良モデルに対して10倍のFLOPS削減と2倍の速度向上という優れた効率性を持つことを示しています。さらに、その最先端の精度も確認されています。