12日前

自己教師付き空間時系列学習:動画クリップ順序予測を用いた手法

{ Yueting Zhuang, Di Xie, Jian Shao, Zhou Zhao, Jun Xiao, Dejing Xu}
自己教師付き空間時系列学習:動画クリップ順序予測を用いた手法
要約

本稿では、動画の時間的順序を活用する自己教師付き空間時系列学習手法を提案する。本手法は、動画からシャッフルされたクリップの順序を予測することで、動画の空間時系列表現を学習する。動画のカテゴリ情報は必要としないため、無限に存在するラベルなし動画を活用する可能性を有している。既存の関連研究ではフレームを用いるものがあるが、フレームと比較してクリップは動画のダイナミクスとより整合性が高く、順序の不確実性を低減し、動画表現の学習に適している。本手法では、3次元畳み込みニューラルネットワーク(3D CNN)を用いてクリップの特徴量を抽出し、その特徴量を処理して実際の順序を予測する。学習された表現は、最近傍検索実験を用いて評価される。また、学習済みネットワークを事前学習モデルとして用い、アクション認識タスクにおいて微調整(fine-tuning)を行う。実験では3種類の3D CNNを評価し、従来の自己教師付き手法と比較して大幅な性能向上を達成した。

自己教師付き空間時系列学習:動画クリップ順序予測を用いた手法 | 最新論文 | HyperAI超神経