
要約
行動理解は微細粒度の時代に進化しています。実際の生活におけるほとんどの人間の行動には僅かな違いしか存在しないため、これらの微細な行動を効率的にラベル付けしつつ正確に検出する問題に取り組む必要があります。本研究では、初めて弱教師ありの微細粒度時系列行動検出(weakly-supervised fine-grained temporal action detection)という課題に挑戦します。微細粒度の行動間の微妙な違いを捉えるための慎重な設計がなければ、従来の一般的な行動検出用弱教師ありモデルは微細粒度設定で十分な性能を発揮できません。我々は、自己監督クラスタリングを通じてデータから自動的に発見される再利用可能な原子的な行動(atomic actions)の組み合わせとして行動をモデル化することを提案します。これにより、微細粒度の行動の共通性と個別性を捉えることが可能となります。学習された原子的な行動は視覚的概念によって表現され、さらに意味的なラベル階層を利用して微細および粗い行動ラベルにマッピングされます。我々の手法は、クリップレベル、原子的行動レベル、微細行動クラスレベル、粗い行動クラスレベルという4つのレベルからなる視覚的表現階層を構築し、各レベルでの教師あり学習を行います。大規模な2つの微細粒度ビデオデータセットであるFineActionとFineGymにおいて広範囲にわたる実験が行われました。その結果、提案した弱教師ありモデルが微細粒度行动検出において優れた効果を示し、最先端の成果を達成していることが確認されました。