階層的な長期短期同時記憶による人間の相互作用認識

本論文では、複数の人物間の長期的な相互関連ダイナミクスを探索することで、ビデオ中の人間の相互作用認識の問題に取り組むことを目指しています。最近、単一人物の動作認識において、時間的な動き情報を一定範囲で捉える能力から、Long Short-Term Memory (LSTM) が個々のダイナミクスをモデル化するための人気のある選択肢となっています。しかし、既存のRNNモデルは単純に各個人のダイナミクスを結合したり、全体としてモデル化することに焦点を当てており、人間の相互作用が時間とともにどのように変化するかという相互関連ダイナミクスを見落としています。この課題に対処するために、我々は新しい階層的長期短期並行記憶(Hierarchical Long Short-Term Concurrent Memory: H-LSTCM)を提案します。これは、複数の人物間の長期的な相互関連ダイナミクスをモデル化し、人間の相互作用を認識するために設計されています。具体的には、まず各人物の静的特徴量をSingle-Person LSTMに入力して単一人物のダイナミクスを学習します。その後、すべてのSingle-Person LSTMユニットからの出力を新規なConcurrent LSTM (Co-LSTM) ユニットに入力します。Co-LSTMユニットは主に複数のサブメモリユニット、新しいセルゲート、新しい共通メモリセルで構成されています。Co-LSTMユニットでは、各サブメモリユニットが個々の動き情報を保存し、このCo-LSTMユニットはセルゲートと共通メモリセルを通じて複数のサブメモリユニットから複数の人々が相互作用している際の相互関連動き情報を選択的に統合および保存します。4つの公開データセットでの広範な実験により、提案されたH-LSTCMが基準方法や最先端手法と比較して有効性が検証されました。