8ヶ月前

概要

本論文では、教師なし行動分割について取り扱っています。従来の研究では、ビデオのフレームレベルの時間構造を、ビデオ内のフレームの時間位置を符号化する特徴埋め込みによって捉えていました。我々は、この従来の研究を発展させ、フレームレベルと行動レベルの両方の構造を考慮した新しい自己監督学習（Self-Supervised Learning, SSL）による特徴埋め込みを提案します。我々のSSLは、RNN（Recurrent Neural Network）を用いて正例と負例の行動シーケンスを認識させるように訓練します。RNNの隠れ層が新たな行動レベルの特徴埋め込みとして利用されます。正例と負例のシーケンスは、ビデオからサンプリングされた行動セグメントで構成されています。前者ではサンプリングされた行動セグメントがビデオ内の時間順序を尊重しており、後者ではシャッフルされています。行動に対する教師データが利用できないため、我々はHMM（Hidden Markov Model）を定義し、これにより行動長さを明示的にモデル化します。そしてViterbiアルゴリズムを使用してMAP（Maximum A Posteriori）による行動分割を行います。得られた行動分割は、我々の行動レベル特徴埋め込みの推定とHMMの更新に疑似教師データとして使用されます。これらのステップはGeneralized EM（Expectation-Maximization）フレームワーク内で交互に行われることで収束が保証されます。Breakfast, YouTube Instructions, 50Saladsデータセットでの評価結果は、現行最先端技術に対して優れた性能を示しています。

ソースPDF