2ヶ月前

SLIC: 反復クラスタリングを用いた人間行動ビデオの自己監督学習

Salar Hosseini Khorasgani; Yuxuan Chen; Florian Shkurti
SLIC: 反復クラスタリングを用いた人間行動ビデオの自己監督学習
要約

自己監督学習手法は、画像分類におけるエンドツーエンドの教師あり学習との間のギャップを大幅に縮めています。しかし、外見と動きが重要な変動要因となる人間の行動ビデオの場合には、このギャップは依然として大きいままです。その主な理由の一つは、多くの自己監督対照学習手法で必要となる類似したビデオクリップのペアリングサンプリングが、誤検出を避けるために慎重に行われていることです。一般的な仮定としては、類似したクリップは単一のビデオ内で時間的に近接する場所にのみ存在するとされていますが、これにより動きの類似性に関する十分な例が得られません。これを緩和するために、私たちはSLIC(Similarity Learning for Iterative Clustering)というクラスタリングベースの自己監督対照学習手法を提案します。私たちの主要な貢献点は、反復クラスタリングを使用して類似したビデオインスタンスをグループ化することで、従来のビデオ内での正例サンプリングを改善することです。これにより、当手法はクラスタ割り当てから得られる疑似ラベルを利用してより難しい正例と負例を選択することが可能になります。SLICはUCF101データセットにおいてトップ1リコールで+15.4%向上し、HMDB51データセットへの直接転移でも+5.7%向上するなど、最先端のビデオ検索基準を上回ります。また、アクション分類のためにエンドツーエンドで微調整を行うと、SLICはUCF101データセットで83.2%(+0.8%)、HMDB51データセットで54.5%(+1.6%)のトップ1精度を達成します。さらに、Kinetics400データセットでの自己監督事前学習後もアクション分類において最先端と競争力のある結果を示しています。

SLIC: 反復クラスタリングを用いた人間行動ビデオの自己監督学習 | 最新論文 | HyperAI超神経