弱教師付き時系列アクション局所化における前景と背景の分離の再検討:クラスタリングに基づくアプローチ

弱教師付き時系列アクション局所化は、ビデオレベルのアクションラベルのみを使用して、ビデオ内のアクションインスタンスを局所化することを目指しています。既存の手法は主に分類による局所化パイプラインを採用しており、ビデオ分類損失を最適化することでスニペットレベルの予測を行います。しかし、このアプローチは分類と検出の間の乖離により、前景(Foreground)と背景(Background)のスニペット(F&Bスニペット)の正確な区別が困難になるという問題があります。この問題を緩和するため、我々は無教師スニペットクラスタリングに頼ることで、スニペット間の潜在的な構造を探求することを提案します。具体的には、新しいクラスタリングベースのF&B分離アルゴリズムを提案します。このアルゴリズムには2つの主要なコンポーネントが含まれています:1つ目はスニペットクラスタリングコンポーネントで、スニペットを複数の潜在クラスターにグループ化します。2つ目はクラスタークラシフィケーションコンポーネントで、さらにクラスターを前景または背景として分類します。これらの2つのコンポーネントを訓練するための真実値ラベルがないため、最適輸送に基づく統一された自己ラベリングメカニズムを導入し、高品質な疑似ラベルを作成します。これにより、スニペットのクラスタ割り当てがF&Bラベルと正確に関連付けられることになり、F&B分離が向上します。我々は提案手法を3つのベンチマークデータセット(THUMOS14, ActivityNet v1.2, v1.3)で評価しました。結果として、提案手法はすべてのベンチマークデータセットで有望な性能を示し、従来の手法よりも大幅に軽量であることが確認されました。コードは以下のURLから入手可能です:https://github.com/Qinying-Liu/CASE