
要約
本論文は、動画における人間の行動の時系列分割に関するものである。我々は、動画フレームのラベル付けを目的として、複数の時系列スケールで動画区間を分析することを目的とした新たなモデル——時系列可変残差ネットワーク(Temporal Deformable Residual Network, TDRN)——を提案する。TDRNは、2つの並列な時系列ストリームを計算する。1つ目は、動画情報を完全な時系列解像度で分析する「残差ストリーム」であり、2つ目は、異なるスケールで長距離の動画情報を捉える「プーリング/アンプーリングストリーム」である。前者は局所的で細かいスケールの行動分割を促進し、後者はマルチスケールの文脈情報を用いてフレーム分類の精度を向上させる。これらの2つのストリームは、可変畳み込み(deformable convolutions)を用いた時系列残差モジュールによって計算され、全動画解像度における時系列残差によって統合される。ダンディー大学50サラダ、ジョージア工科大学エゴセントリックアクティビティ、JHU-ISIジェスチャーおよびスキル評価ワーキングセットにおける評価結果から、TDRNがフレーム単位の分割精度、セグメント編集スコア、セグメントオーバーラップF1スコアのいずれにおいても、既存の最先端手法を上回ることが明らかになった。