2ヶ月前

自己監督下的時空表現学習:動画における運動と外観統計の予測

Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu
自己監督下的時空表現学習:動画における運動と外観統計の予測
要約

私たちは、人間による注釈なしでビデオ表現学習の問題に取り組んでいます。従来の研究では、新しい自己監督タスクを設計することでこの問題に対処してきましたが、学習された特徴量は単純にフレームごとのものであり、空間時間的な特徴量が必要な多くのビデオ解析タスクには適用できません。本論文では、ビデオ表現のための空間時間的な特徴量を学習する新しい自己監督アプローチを提案します。ビデオ分類におけるツーストリームアプローチの成功に触発され、入力ビデオデータのみを使用して、空間と時間の両次元での運動と外観統計を回帰することで視覚的特徴量を学習することを提案します。具体的には、空間領域と時間領域の両方から単純なパターン(高速運動領域とその主要方向、空間時間的な色多様性、主要色など)を抽出し、統計的概念を取り出します。これまでの人間ですら解くのが難しいパズルとは異なり、提案手法は人間の内在的な視覚習慣と一致しているため、答えやすいです。C3Dを使用して提案手法の有効性を検証する広範な実験を行いました。実験結果は、提案手法がビデオ分類タスクに適用される場合にC3Dの性能を大幅に向上させられることを示しています。コードは以下のURLから入手可能です: https://github.com/laura-wang/video_repres_mas.

自己監督下的時空表現学習:動画における運動と外観統計の予測 | 最新論文 | HyperAI超神経