2ヶ月前
非監督行動セグメンテーションにおける共通表現学習とオンラインクラスタリング
Sateesh Kumar; Sanjay Haresh; Awais Ahmed; Andrey Konin; M. Zeeshan Zia; Quoc-Huy Tran

要約
私たちは、ビデオフレームクラスタリングを前提タスクとして使用し、表現学習とオンラインクラスタリングを同時に実行する新しい非監督活動セグメンテーション手法を提案します。これは、従来の研究では表現学習とクラスタリングがしばしば順次行われるのとは対照的です。私たちは、時間最適輸送(temporal optimal transport)を用いてビデオ内の時間情報を活用します。特に、標準的な最適輸送モジュールで疑似ラベルのクラスタ割り当てを計算するために、活動の時間的順序を保つ時間正則化項(temporal regularization term)を組み込みます。この時間最適輸送モジュールにより、私たちの手法は効果的な表現を学習し、非監督活動セグメンテーションに利用できます。さらに、従来の方法ではデータセット全体の学習済み特徴量を事前に保存してからオフラインでクラスタリングを行う必要があるのに対し、私たちの手法はオンラインでミニバッチごとに処理を行います。50-Salads、YouTube Instructions、Breakfast の3つの公開データセットおよび私たちが作成した Desktop Assembly データセットにおける広範な評価結果は、当手法が大幅に少ないメモリ制約にもかかわらず既存手法と同等かそれ以上の性能を示すことを示しています。当研究に関するコードとデータセットは以下の研究ウェブサイトで公開されています: https://retrocausal.ai/research/